Dario Amodei, CEO da Anthropic, publicou um artigo na quinta-feira que destaca o quão pouco sabemos sobre o modelo de IA que trabalha. Amodei admite que a tarefa a seguir é assustadora. Amodei disse em um ensaio intitulado “A urgência da interpretabilidade” que o Antrópico havia feito alguns avanços precoces sobre como rastrear as respostas dos modelos, mas enfatizou a necessidade de mais pesquisas à medida que esses sistemas se tornam mais complexos. “Esses sistemas serão absolutamente centrais para a economia, a tecnologia e a segurança nacional e serão capazes de tanta autonomia que considero basicamente inaceitável que a humanidade seja totalmente ignorante de como eles funcionam”.
O Antrópico é uma das empresas pioneiras na interpretabilidade mecanicista, um campo que visa abrir a caixa preta dos modelos de IA e entender por que eles tomam as decisões que fazem. Ainda sabemos muito pouco sobre como os sistemas de IA tomam decisões, apesar de estarem melhorando rapidamente. A empresa não sabe por que isso acontece. A empresa não sabe por que está acontecendo.
“Quando um sistema de IA generativo faz algo, como resumir um documento financeiro, não temos idéia, em um nível específico ou preciso, por que faz as escolhas que faz – por que escolhe certas palavras em detrimento de outras pessoas ou por que ocasionalmente comete um erro, apesar de geralmente ser preciso”, escreveu Amodei no ensaio.
O co-fundador antrópico Chris Olah diz que os modelos de IA são “crescidos mais do que são construídos”, observa o Amodei no ensaio. Os pesquisadores da IA estão trabalhando para aumentar a inteligência dos modelos de IA, mas não sabem exatamente o porquê. Amodei disse em um ensaio anterior que a indústria de tecnologia alcançaria esse marco por volta de 2026-2027. No entanto, ele acredita que ainda está muito longe. Ele diz que esses check-ups ajudarão a identificar muitos problemas com os modelos de IA. Isso inclui sua tendência a mentir ou buscar poder. Isso pode levar de cinco a dez anos para alcançar, mas essas medidas serão necessárias para testar e implantar os futuros modelos de IA da Anthropic, acrescentou.
A Anthropic fez alguns avanços de pesquisa que permitiram entender melhor como seus modelos de IA funcionam. A empresa, por exemplo, descobriu recentemente uma maneira de rastrear os caminhos de pensamento de um modelo de IA usando o que chama de circuitos. O Antrópico identificou um circuito que ajuda os modelos de IA a entender o que as cidades dos Estados Unidos estão localizados dentro dos estados. A empresa encontrou apenas alguns desses circuitos, mas estima que existem milhões nos modelos de IA.
A Anthropic tem investido em pesquisa de interpretabilidade e recentemente fez seu primeiro investimento em uma startup trabalhando na interpretabilidade. Amodei, em seu ensaio, pediu aos pesquisadores Openai e Google DeepMind para intensificar seus esforços. No ensaio, Amodei também diz que os EUA devem colocar controles de exportação sobre chips para a China, a fim de limitar a probabilidade de uma corrida global de IA global fora de controle.
O Anthropic sempre se destacou do OpenAI e do Google por seu foco na segurança. Enquanto outras empresas de tecnologia recuperaram a controversa conta de segurança da IA da Califórnia, SB 1047, o Antrópico emitiu Suporte e Recomendações Modestas para o Projeto de Lei, o que teria estabelecido padrões de relatórios de segurança para os desenvolvedores de modelos de AI da Frontier.
Nesse caso, o Antrópico parece estar pressionando por um esforço em todo o setor para entender melhor os modelos de IA, não apenas aumentando suas capacidades.