Pessoas de fora violaram Claude Mythos da Anthropic no mesmo dia em que o modelo de IA 'potencialmente perigoso' foi revelado: relatório -

Alguns usuários conseguiram obter acesso não autorizado ao Claude Mythos da Anthropic – o modelo que a empresa afirma ser tão perigoso que causaria uma onda de ataques cibernéticos devastadores se fosse disponibilizado ao público.

A violação ocorreu em 8 de abril – o mesmo dia em que a Anthropic e seu CEO Dario Amodei revelaram que o Mythos estava disponível apenas para cerca de 40 clientes corporativos escolhidos a dedo como parte do “Projeto Glasswing”.

A Anthropic disse que a Mythos encontrou grandes falhas de segurança cibernética em “todos os principais sistemas operacionais e navegadores da web” durante testes internos.

Um grupo de usuários obteve acesso ao Mythos no mesmo dia em que a Anthropic disse que era muito perigoso liberá-lo publicamente. Christopher Sadowski para o NY Post

Os usuários não autorizados pertencem a um fórum online privado dedicado a quebrar modelos de IA não lançados no Discord, um popular aplicativo de mensagens.

Desde que obtiveram acesso, eles têm usado o Mythos “regularmente”, mas não para fins de segurança cibernética, segundo a Bloomberg, que obteve capturas de tela e viu uma demonstração ao vivo dos usuários acessando o modelo.

Os detetives invadiram a Mythos por meio de uma variedade de táticas, inclusive adivinhando o endereço online do modelo com base nas convenções de nomenclatura que a Anthropic usou em lançamentos de modelos anteriores, disse o relatório.

Um dos usuários não autorizados teria algum nível de acesso aos sistemas da Anthropic devido a trabalhar como terceirizado para a empresa.

“Estamos investigando um relatório alegando acesso não autorizado ao Claude Mythos Preview por meio de um de nossos ambientes de fornecedores terceirizados”, disse um porta-voz da Anthropic em um comunicado.

A empresa acrescentou que não tem provas de que o acesso não autorizado do grupo tenha se expandido para além do ambiente do fornecedor terceirizado ou impactado qualquer um de seus outros sistemas.

Uma pessoa do grupo Discord – cujos membros não foram identificados – disse à Bloomberg que deseja testar novos modelos em vez de usá-los para causar o caos.

Ainda assim, o incidente levanta preocupações sobre a extensão da capacidade da Anthropic de manter a supervisão de uma ferramenta que, segundo eles, poderia ser usada para destruir infra-estruturas críticas, como redes eléctricas, centrais eléctricas e hospitais, caso caísse em mãos erradas.

No início deste mês, o pesquisador de segurança de IA Roman Yampolskiy disse ao Post que algum “vazamento” do modelo era inevitável, apesar das tentativas da Anthropic de restringir o acesso.

O CEO da Anthropic, Dario Amodei, fala em um evento. REUTERS

A Anthropic disse que compartilhou o Mythos com parceiros corporativos – incluindo Amazon, Google, Apple, Nvidia, CrowdStrike e JPMorgan Chase – para que eles pudessem corrigir suas próprias vulnerabilidades de segurança cibernética.

Antes do lançamento, Mythos saiu de uma “caixa de areia” segura destinada a restringir o acesso à Internet – e um pesquisador só descobriu “ao receber um e-mail inesperado da modelo enquanto comia um sanduíche em um parque”. A Anthropic descreveu o incidente muito divulgado como “demonstrando uma capacidade potencialmente perigosa de contornar nossas salvaguardas”.

O secretário do Tesouro, Scott Bessent, e o presidente da Reserva Federal, Jerome Powell, realizaram recentemente uma reunião a portas fechadas, na qual instaram os principais funcionários dos bancos a garantirem que os seus sistemas estavam preparados para os riscos supostamente representados pelo Mythos.

Fuente