A indústria de tecnologia de vigilância está hoje no centro das atenções, mas não pelas melhores razões. Com a controvérsia em torno da Imigração e Alfândega dos EUA aproveitando a rede de câmeras da Flock para vigiar as pessoas, e o fabricante de câmeras domésticas Ring atraindo críticas por construir novos recursos que permitiriam às autoridades solicitar aos proprietários imagens de seus bairros, há atualmente um amplo debate sobre segurança, privacidade e quem pode vigiar quem.
Mas a controvérsia não apaga os mercados, e a melhoria contínua dos modelos de linguagem de visão apenas fez soprar mais vento nas velas das empresas que criam novas formas de ajudar as empresas a monitorizar o que se passa nas suas instalações.
De acordo com Matan Goldner, cofundador e CEO da startup de videovigilância Conntour, a ética em torno deste tópico é importante o suficiente para que ele diga que sua empresa é bastante exigente quanto a quais clientes vender. Isso pode não parecer um bom senso comercial para uma startup há apenas dois anos, mas Goldner diz que pode se dar ao luxo de fazer isso porque a Conntour já tem vários grandes clientes governamentais e de capital aberto, um dos quais é o Central Narcotics Bureau de Cingapura.
“O fato de termos clientes tão grandes nos permite selecioná-los e manter o controle (…) Temos realmente o controle de quem está usando, qual é o caso de uso e podemos selecionar o que consideramos moral e, claro, legal. Usamos todo o nosso julgamento e tomamos decisões com base em clientes específicos com os quais estamos bem (para trabalhar), porque sabemos como eles irão usá-lo”, disse Goldner ao TechCrunch em uma entrevista exclusiva.
Essa tração ajudou Conntour a ser mais do que seletivo. Os investidores tomaram nota: a startup levantou recentemente uma rodada inicial de US$ 7 milhões da General Catalyst, Y Combinator, SV Angel e Liquid 2 Ventures.
Goldner disse que a rodada foi encerrada em 72 horas. “Acho que agendei cerca de 90 reuniões em oito dias, e logo depois de três dias – começamos na segunda-feira e na tarde de quarta-feira terminamos”, disse ele.
Independentemente disso, Conntour pode estar certo ao ser exigente, especialmente considerando o quão poderosas as ferramentas de IA neste espaço se tornaram. A própria plataforma de vídeo da empresa usa modelos de IA para permitir que o pessoal de segurança consulte feeds de câmeras usando linguagem natural para encontrar qualquer objeto, pessoa ou situação na filmagem, em tempo real – um mecanismo de busca semelhante ao Google feito especificamente para feeds de vídeo de segurança. Ele também pode monitorar e detectar ameaças por conta própria com base em regras predefinidas e exibir alertas automaticamente.
Ao contrário dos sistemas legados que dependem de definições ou parâmetros predefinidos para detectar objetos, padrões de movimento ou comportamentos específicos, a Conntour afirma que seu sistema usa modelos de linguagem natural e de visão, o que lhe confere um alto grau de flexibilidade e usabilidade. Um usuário pode perguntar: “Encontre casos de alguém de tênis passando por uma sacola no saguão”, e o sistema da Conntour pesquisará rapidamente todas as imagens gravadas ou feeds de vídeo ao vivo para retornar resultados relevantes.
Uma captura de tela da plataforma Conntour em ação. Créditos da imagem: Contorno
E como a plataforma se baseia em modelos de IA, os usuários podem simplesmente fazer perguntas sobre as filmagens e obter respostas em texto, acompanhadas de feeds de vídeo relevantes, bem como gerar relatórios de incidentes.
O ponto de venda da empresa, no entanto, é a sua escalabilidade. Goldner explicou que a plataforma difere principalmente de outros serviços de pesquisa de vídeo de IA porque foi projetada para ser dimensionada com eficiência para sistemas que compreendem milhares de feeds de câmeras. Na verdade, disse ele, o sistema da Conntour pode monitorar até 50 imagens de câmera de uma única GPU de consumidor, como o RTX 4090 da Nvidia.
A empresa faz isso usando vários modelos e sistemas lógicos e, em seguida, identificando quais modelos e sistemas o algoritmo deve usar para cada consulta para exigir a menor quantidade de poder de computação para fornecer aos usuários os melhores resultados.
A Conntour afirma que seu sistema pode ser totalmente implantado no local, totalmente na nuvem ou uma combinação de ambos. Ele pode ser conectado à maioria dos sistemas de segurança já em uso ou servir como uma plataforma de vigilância completa por conta própria.
Mas há um problema antigo na indústria de vigilância por vídeo: a qualidade da vigilância é tão boa quanto a filmagem capturada. É difícil distinguir detalhes da filmagem de um estacionamento mal iluminado que foi gravado por uma câmera de baixa resolução com lentes sujas, por exemplo.
Goldner diz que a Conntour evita essa inevitabilidade fornecendo uma pontuação de confiança junto com seus resultados de pesquisa. Se a fonte de alimentação da câmera não tiver qualidade suficiente, o sistema retornará resultados com baixos níveis de confiança.
No futuro, Goldner diz que o maior problema técnico a resolver é trazer o nível completo de capacidade LLM para o seu sistema, mantendo ao mesmo tempo a sua eficiência.
“Temos duas coisas que queremos fazer ao mesmo tempo, e elas se contradizem. Por um lado, queremos fornecer flexibilidade total de linguagem natural, estilo LLM, para permitir que você pergunte qualquer coisa. E, por outro lado, há eficiência, por isso queremos fazer com que use muito poucos recursos, porque, novamente, o processamento (milhares) de feeds é simplesmente uma loucura. Essa contradição é a maior barreira técnica e o maior problema técnico em nosso espaço, e estamos trabalhando muito, muito duro para resolver.”



