A Anthropics Claude Mythos é uma grande façanha ou uma ameaça real à segurança? O que dizem os especialistas. -

A Anthropic alertou todo o mundo da tecnologia na semana passada com um anúncio sem precedentes: ela criou um modelo de IA tão avançado que era muito perigoso lançá-lo ao público. A Anthropic disse que o novo modelo de linguagem de fronteira, Claude Mythos Preview, iria “remodelar a segurança cibernética”.

A Anthropic também anunciou a formação do Projeto Glasswing, um grupo de organizações somente para convidados – incluindo alguns dos maiores concorrentes da Anthropic – para testar o Claude Mythos Preview e proteger sua infraestrutura.

A Anthropic disse que o Claude Mythos Preview “encontrou milhares de vulnerabilidades de alta gravidade, incluindo algumas em todos os principais sistemas operacionais e navegadores da web”. (Ênfase no original.) A empresa disse que o Projeto Glasswing era necessário “para ajudar a proteger o software mais crítico do mundo”.

Na sexta-feira, a CNBC informou que o presidente da Reserva Federal, Jerome Powell, e o secretário do Tesouro, Scott Bessent, convocaram os sumos sacerdotes das finanças (também conhecidos como CEOs bancários) para uma reunião de emergência sobre o novo modelo. O escritor do New York Times, Thomas Friedman, preocupava-se com um futuro “aterrorizante” em que qualquer adolescente armado com Claude poderia hackear a rede elétrica local.

A reação ao Preview de Claude Mythos rapidamente se dividiu em linhas previsíveis. Os impulsionadores da IA saudaram o novo modelo como prova de que a inteligência artificial geral (AGI) estava próxima, elogiando a Anthropic por implementá-lo de forma tão responsável.

Críticos e céticos da IA consideraram o Projeto Glasswing um grande golpe publicitário.

Então, qual é?

Para descobrir, Mashable tem revisado as afirmações da Anthropic e conversado com especialistas em IA e segurança cibernética.

O que é a visualização de Claude Mythos?

Claude Mythos é um novo modelo de linguagem grande que, segundo a Anthropic, tem desempenho significativamente melhor do que Claude Opus 4.6, amplamente considerado um dos melhores modelos de IA do mundo, especialmente em segurança cibernética.

“Em nossos testes, o Claude Mythos Preview demonstrou um salto impressionante nas capacidades cibernéticas em relação aos modelos anteriores, incluindo a capacidade de descobrir e explorar de forma autônoma vulnerabilidades de dia zero nos principais sistemas operacionais e navegadores da web”, diz o cartão do sistema Claude Mythos.

Claude Mythos é um sinal de AGI?

A inteligência artificial geral refere-se à IA superinteligente que pode ter um desempenho melhor do que os humanos em uma ampla gama de tarefas. Não é exagero dizer que toda a nossa economia foi organizada em torno da busca pela AGI, à medida que a Anthropic, a Google, a Meta, a xAI e a OpenAI investem centenas de milhares de milhões de dólares numa nova corrida ao armamento.

Se Claude Mythos é tão capaz quanto diz Antrópico, seria um exemplo de AGI? O cartão modelo aborda essa questão diretamente, e a Anthropic parece pensar que está próximo do AGI.

Numa secção sobre os riscos de segurança de Claude Mythos, a Antropic escreve: “Os riscos actuais permanecem baixos. Mas vemos sinais de alerta de que mantê-los baixos pode ser um grande desafio se as capacidades continuarem a avançar rapidamente (por exemplo, ao ponto de sistemas de IA fortemente sobre-humanos)”. É claro que a Anthropic tem um forte incentivo financeiro para promover essa crença.

Este gráfico mostra como o Mythos se compara aos modelos Antrópicos anteriores na pontuação ECI, que combina vários benchmarks em um.
Crédito: Antrópico

Em última análise, o modelo de cartão de Claude Mythos é mais conservador do que a reação online poderia sugerir.

Por exemplo, embora o cartão do modelo Claude Mythos mostre que este modelo tem um desempenho acima da linha de tendência dos modelos Antrópicos anteriores, a Anthropic diz que não mostra evidências de autoaperfeiçoamento ou crescimento recursivo. (“Os ganhos que podemos identificar são atribuíveis com segurança à pesquisa humana, e não à assistência da IA.”)

Razões para pensar que o Projeto Glasswing é um golpe publicitário

Não me faça tocar na minha placa: “(Quando) um vendedor de IA lhe disser que a IA é uma tecnologia imparável que mudará o mundo na ordem da revolução agrícola… você deve considerar esta previsão pelo que ela é: um discurso de vendas.”

Escrevi essas palavras de cautela em resposta a um ensaio do CEO da Anthropic, Dario Amodei, que alertou sobre os perigos potencialmente cataclísmicos da IA. A Anthropic também tem um histórico de emitir alertas terríveis sobre seus modelos de IA.

Você deve se lembrar da história do modelo Antrópico que tentou “chantagear” o CEO de uma empresa para evitar que ela fosse desligada. Na realidade, a Anthropic projetou um ambiente de teste onde a chantagem era um resultado potencial. Isso pode ser mais parecido com uma armadilha digital do que com um mau comportamento genuíno do modelo.

Então, Claude Mythos é o exemplo mais recente do problema do Chicken Little da indústria?

No X, a engenheira de segurança de IA Heidy Khlaaf listou uma série de questões em aberto que lançam dúvidas sobre as afirmações da Anthropic.

Este Tweet não está disponível no momento. Pode estar carregando ou foi removido.

A Anthropic disse que a prévia do Claude Mythos encontrou milhares de vulnerabilidades de dia zero. Mas Khlaaf diz que a Anthropic deixou de fora os principais fatos necessários para avaliar esta afirmação – a taxa de falsos positivos, como Claude Mythos se compara às ferramentas de segurança cibernética existentes e exatamente quanta revisão humana manual foi necessária.

Velocidade da luz mashável

“Lançar uma postagem de marketing com linguagem propositalmente vaga que obscurece claramente as evidências necessárias para fundamentar as afirmações da Anthropic coloca em questão se eles estão tentando angariar mais investimentos”, disse Khlaaf ao Mashable. “Também serve a sua imagem de ‘segurança em primeiro lugar’, pois são capazes de enquadrar a falta de divulgação pública, mesmo que limitada para avaliação independente, como um serviço público, quando simplesmente obscurece até mesmo as capacidades dos especialistas para validar as suas afirmações.”

Entramos em contato com a Anthropic repetidamente sobre essas preocupações, mas a empresa não respondeu. Atualizaremos este artigo se isso acontecer. No cartão do sistema Claude Mythos, a Anthropic escreveu que mais dados serão divulgados nas próximas semanas, à medida que os bugs encontrados pelo Mythos forem corrigidos e corrigidos.

Gary Marcus, especialista em IA, autor e famoso crítico da máquina de hype LLM, inicialmente disse ao Mashable que era muito cedo para saber se Claude Mythos representava um novo tipo de ameaça.

Mas Marcus ficou mais cético desde que falamos com ele, e ele escreveu recentemente no X que Mythos “não era nem de longe tão assustador” quanto parecia à primeira vista. “Pessoal, vocês podem relaxar. Mythos não é um ganho exponencial fora de tendência”, escreveu ele.

Este Tweet não está disponível no momento. Pode estar carregando ou foi removido.

Especialistas em segurança cibernética disseram ao Mashable que também é muito improvável que Claude Mythos possa ser usado para “apagar as luzes” ou derrubar infraestruturas críticas.

“As alegações sobre usos catastróficos do Mythos também interpretam mal os modelos de ameaças, os riscos de segurança cibernética e a capacidade de propagar esses riscos de uma forma que poderia realmente levar a incidentes críticos de segurança”, disse-nos Khlaaf. “Não é tão simples quanto pedir a um modelo ‘hackeie este sistema’, com a postagem técnica do próprio blog da Anthropic demonstrando um requisito de experiência que a Anthropic minimiza em suas postagens de marketing.”

Outros especialistas expressaram ceticismo, ao mesmo tempo que reconheceram que o Mythos representa um risco genuíno, o que Marcus também disse.

“Você poderia argumentar que não era necessário um anúncio público”, disse Div Garg, pesquisador de IA de Stanford e fundador da AGI, Inc.
“No entanto, em última análise, a decisão de limitar o acesso apenas àqueles que desenvolvem e mantêm software crítico é precisamente o que se quer que uma empresa faça num tal cenário…É fácil criticar o acesso limitado, mas resultados piores surgiriam se o lançassem sem controlo”.

Tal Kollender, fundador e CEO da empresa de segurança cibernética Remedio, disse ao Mashable que ferramentas como Claude Mythos são perigosas porque podem explorar a descoberta.

“É um teatro corporativo brilhante”, disse Kolender. “Rotular um modelo como ‘muito perigoso para ser divulgado ao público’ é certamente uma flexibilização de marketing porque imediatamente cria mística e sinaliza um enorme poder para os investidores. Mas por trás do golpe de relações públicas, há uma verdade muito real e muito mundana… A indústria de segurança cibernética não tem realmente um problema de ‘descoberta’. Já estamos nos afogando em ferramentas que detectam vulnerabilidades. O que a Mythos faz é automatizar esse processo de descoberta em uma escala sem precedentes.”

DR: Uma semana depois de revelar o Claude Mythos Preview, algumas das maiores afirmações da Anthropic sobre o modelo parecem muito mais incompletas, dizem os especialistas. No entanto, também reconhecem que Claude Mythos e outras ferramentas semelhantes representam um risco real.

Ainda assim, existem muitas razões muito importantes para estarmos nervosos com o novo modelo de fronteira.

Razões para pensar que o Claude Mythos Preview é uma ameaça genuína à segurança cibernética global

No New York Times, o autor Thomas Friedman evoca um cenário saído diretamente dos Jogos de Guerra, onde um adolescente invade a rede elétrica local depois da escola.

Esse cenário parece ainda mais improvável uma semana depois. Mas aqui está um cenário muito mais provável: um grupo sofisticado de hackers utiliza uma ferramenta como Claude Mythos para encontrar vulnerabilidades de dia zero na nossa infraestrutura digital, lançando ataques mais rapidamente do que as organizações conseguem responder.

E esse cenário deve preocupar você.

Se Claude Mythos não for a ferramenta capaz de fazer isso, a maioria dos especialistas concorda que tal ferramenta não está longe.

E alguns dos principais especialistas em segurança cibernética do mundo certamente parecem preocupados.

“Encontrei mais bugs nas últimas semanas (com Claude Mythos) do que em toda a minha vida combinada”, disse Nicholas Carlini, cientista pesquisador afiliado à Anthropic e ao Google DeepMind, em um vídeo no site do Projeto Glasswing.

“No Linux, encontramos uma série de vulnerabilidades onde, como usuário sem permissões, posso me elevar a administrador apenas executando alguns binários em minha máquina”, disse Carlini.

Esta semana, o AI Security Institute publicou suas descobertas sobre as capacidades de Claude Mythos e fornece algumas verificações independentes de que representa um verdadeiro salto em frente.

A AISI é uma organização de pesquisa do departamento de ciência e tecnologia do governo do Reino Unido.
Crédito: AISI

Claude Mythos passou em testes de segurança cibernética que nenhum outro modelo jamais havia concluído, obtendo pontuação mais alta do que qualquer outro modelo de fronteira em praticamente todos os testes.

“Nossos testes mostram que o Mythos Preview pode explorar sistemas com postura de segurança fraca, e é provável que mais modelos com esses recursos sejam desenvolvidos”, concluiu AISI.

Este Tweet não está disponível no momento. Pode estar carregando ou foi removido.

A AISI também identificou algumas limitações com Claude Mythos, o que melhoraria a sua eficácia em cenários do mundo real.

Então, o lançamento do Mythos pela Anthropic foi uma administração responsável de IA ou um marketing egoísta? Os especialistas com quem conversei disseram que essas opções não são mutuamente exclusivas.

“Eu diria que são as duas coisas, e isso não é uma crítica”, disse Xu. “Qualquer lançamento de plataforma importante nesta era parecerá diferente para públicos diferentes, dependendo de sua fluência e tolerância ao medo. O que me importa é se a intenção é real, e as evidências que vi da Anthropic sugerem que na maior parte é.

Como costuma acontecer com as manchetes de IA que induzem ao medo, a realidade revelou-se mais complicada.

“Pessoalmente, não vou para a cama preocupado com uma criança com Mythos invadindo a rede elétrica, mas isso não significa que a preocupação seja fictícia”, disse Howie Xu, diretor de IA e inovação da Gen. “Estamos em um ponto de inflexão em que a vantagem criativa e colaborativa dessas ferramentas é enorme e a infraestrutura de segurança ainda não foi alcançada. Essa lacuna é exatamente o que me mantém ocupado. Mesmo uma probabilidade fracionária de um incidente sério é demais, e é por isso que construir uma camada de confiança e segurança na era da agência é meu foco extremo.”

Finalmente, como a Anthropic enfatiza no cartão modelo de Claude Mythos, ferramentas como essa provavelmente beneficiarão mais os defensores da segurança cibernética do que os hackers no longo prazo. E no curto prazo, uma abordagem mais cautelosa – como a abordagem que está a ser modelada com o Project Glasswing – pode ser justificada.

DR: Claude Mythos tem habilidades formidáveis de codificação de segurança cibernética e representa uma ameaça genuína. No entanto, se os hackers tiverem acesso a ferramentas de IA como Claude Mythos, o mesmo acontecerá com as organizações que se defendem contra tais ataques.

Tópicos
Inteligência artificial

Fuente