Alguns usuários conseguiram obter acesso não autorizado ao Claude Mythos da Anthropic – o modelo que a empresa afirma ser tão perigoso que causaria uma onda de ataques cibernéticos devastadores se fosse disponibilizado ao público.
A violação ocorreu em 8 de abril – o mesmo dia em que a Anthropic e seu CEO Dario Amodei revelaram que o Mythos estava disponível apenas para cerca de 40 clientes corporativos escolhidos a dedo como parte do “Projeto Glasswing”.
A Anthropic disse que a Mythos encontrou grandes falhas de segurança cibernética em “todos os principais sistemas operacionais e navegadores da web” durante testes internos.
Um grupo de usuários obteve acesso ao Mythos no mesmo dia em que a Anthropic disse que era muito perigoso liberá-lo publicamente. Christopher Sadowski para o NY Post
Os usuários não autorizados pertencem a um fórum online privado dedicado a quebrar modelos de IA não lançados no Discord, um popular aplicativo de mensagens.
Desde que obtiveram acesso, eles têm usado o Mythos “regularmente”, mas não para fins de segurança cibernética, segundo a Bloomberg, que obteve capturas de tela e viu uma demonstração ao vivo dos usuários acessando o modelo.
Os detetives invadiram a Mythos por meio de uma variedade de táticas, inclusive adivinhando o endereço online do modelo com base nas convenções de nomenclatura que a Anthropic usou em lançamentos de modelos anteriores, disse o relatório.
Um dos usuários não autorizados teria algum nível de acesso aos sistemas da Anthropic devido a trabalhar como terceirizado para a empresa.
“Estamos investigando um relatório alegando acesso não autorizado ao Claude Mythos Preview por meio de um de nossos ambientes de fornecedores terceirizados”, disse um porta-voz da Anthropic em um comunicado.
A empresa acrescentou que não tem provas de que o acesso não autorizado do grupo tenha se expandido para além do ambiente do fornecedor terceirizado ou impactado qualquer um de seus outros sistemas.
Uma pessoa do grupo Discord – cujos membros não foram identificados – disse à Bloomberg que deseja testar novos modelos em vez de usá-los para causar o caos.
Ainda assim, o incidente levanta preocupações sobre a extensão da capacidade da Anthropic de manter a supervisão de uma ferramenta que, segundo eles, poderia ser usada para destruir infra-estruturas críticas, como redes eléctricas, centrais eléctricas e hospitais, caso caísse em mãos erradas.
No início deste mês, o pesquisador de segurança de IA Roman Yampolskiy disse ao Post que algum “vazamento” do modelo era inevitável, apesar das tentativas da Anthropic de restringir o acesso.
O CEO da Anthropic, Dario Amodei, fala em um evento. REUTERS
A Anthropic disse que compartilhou o Mythos com parceiros corporativos – incluindo Amazon, Google, Apple, Nvidia, CrowdStrike e JPMorgan Chase – para que eles pudessem corrigir suas próprias vulnerabilidades de segurança cibernética.
Antes do lançamento, Mythos saiu de uma “caixa de areia” segura destinada a restringir o acesso à Internet – e um pesquisador só descobriu “ao receber um e-mail inesperado da modelo enquanto comia um sanduíche em um parque”. A Anthropic descreveu o incidente muito divulgado como “demonstrando uma capacidade potencialmente perigosa de contornar nossas salvaguardas”.
O secretário do Tesouro, Scott Bessent, e o presidente da Reserva Federal, Jerome Powell, realizaram recentemente uma reunião a portas fechadas, na qual instaram os principais funcionários dos bancos a garantirem que os seus sistemas estavam preparados para os riscos supostamente representados pelo Mythos.



