Индустрия технологий наблюдения находится под пристальным вниманием, и не всегда по лучшим причинам. Споры вокруг доступа иммиграционной службы США к камерам Flock для слежки за людьми и критику новых функций Ring, позволяющих правоохранительным органам запрашивать у домовладельцев записи с их камер, поднимают широкую дискуссию о безопасности, приватности и границах наблюдения.
Но спорные моменты не отменяют рынок, а постоянное развитие vision-language моделей только подстегивает компании, создающие новые способы мониторинга происходящего на объектах.
Сооснователь и CEO стартапа Conntour Матан Голднер утверждает, что этические аспекты настолько важны, что его компания очень избирательно подходит к выбору клиентов. Для стартапа, которому нет и двух лет, это может показаться не самым разумным бизнес-решением. Однако, по словам Голднера, такая роскошь возможна благодаря тому, что у Conntour уже есть несколько крупных государственных и публичных заказчиков, включая Центральное бюро по наркотикам Сингапура.
«Тот факт, что у нас такие крупные клиенты, позволяет нам их выбирать и сохранять контроль. Мы действительно контролируем, кто использует систему, для каких целей, и можем отбирать те варианты, которые считаем моральными и, конечно, законными. Мы используем всё наше суждение и принимаем решения, исходя из конкретных клиентов, с которыми нам комфортно работать, потому что мы знаем, как они будут использовать систему», — рассказал Голднер в эксклюзивном интервью.
Эта успешная работа привлекла не только клиентов, но и инвесторов. Стартап недавно закрыл посевный раунд на $7 млн от General Catalyst, Y Combinator, SV Angel и Liquid 2 Ventures.
Голднер сообщил, что раунд был закрыт за 72 часа. «Я думаю, я назначил около 90 встреч за восемь дней, и уже через три дня — мы начали в понедельник, а к среде после обеда всё было готово», — сказал он.
В любом случае, избирательность Conntour может быть оправдана, особенно учитывая мощь современных ИИ-инструментов в этой сфере. Видеоплатформа компании использует ИИ-модели, позволяя сотрудникам безопасности делать запросы к видеопотокам на естественном языке, чтобы находить объекты, людей или ситуации в записях в реальном времени — это похоже на поисковую систему Google, созданную специально для видеопотоков систем безопасности. Она также может самостоятельно мониторить и обнаруживать угрозы на основе предустановленных правил и автоматически поднимать оповещения.
В отличие от устаревших систем, зависящих от предустановленных определений или параметров для обнаружения конкретных объектов, паттернов движения или поведения, Conntour заявляет, что её система использует модели естественного языка и компьютерного зрения, что обеспечивает высокую степень гибкости и удобства использования. Пользователь может спросить: «Найди случаи, когда кто-то в кроссовках передавал сумку в лобби», — и система Conntour быстро проанализирует все архивные записи или живые видеопотоки, чтобы вернуть релевантные результаты.
Поскольку платформа использует ИИ-модели, пользователи могут просто задавать вопросы о записях и получать ответы в текстовом виде вместе с соответствующими видеофрагментами, а также генерировать отчёты об инцидентах.
Однако ключевым преимуществом компании является масштабируемость. Голднер объяснил, что платформа в основном отличается от других сервисов ИИ-поиска по видео тем, что она предназначена для эффективного масштабирования до систем, состоящих из тысяч видеопотоков. По его словам, система Conntour может отслеживать до 50 видеопотоков на одном потребительском GPU, таком как Nvidia RTX 4090.
Компания достигает этого, используя несколько моделей и логических систем, а затем определяя, какие модели и системы алгоритм должен использовать для каждого запроса, чтобы потреблять минимум вычислительной мощности и давать пользователям наилучшие результаты.
Conntour утверждает, что её систему можно развернуть полностью на локальных серверах, полностью в облаке или в гибридном режиме. Она может быть интегрирована с большинством уже используемых систем безопасности или служить самостоятельной платформой для наблюдения.
Но в индустрии видеонаблюдения давно существует проблема: качество наблюдения напрямую зависит от качества записанного материала. Например, трудно разобрать детали на записи плохо освещённой парковки, сделанной камерой низкого разрешения с грязным объективом.
Голднер говорит, что Conntour страхуется от такой неизбежности, предоставляя оценку достоверности вместе с результатами поиска. Если источник видеопотока недостаточно хорошего качества, система вернёт результаты с низким уровнем достоверности.
В перспективе, по словам Голднера, главная техническая задача — внедрить в систему все возможности больших языковых моделей, сохранив при этом её эффективность.
«У нас есть две вещи, которые мы хотим делать одновременно, и они противоречат друг другу. С одной стороны, мы хотим обеспечить полную гибкость естественного языка, как у LLM, чтобы позволить вам спрашивать что угодно. А с другой стороны — эффективность, мы хотим, чтобы она использовала очень мало ресурсов, потому что обработка тысяч потоков — это просто безумие. Это противоречие — самая большая техническая преграда и техническая проблема в нашей области, и над её решением мы работаем очень и очень усердно».



