A Anthrópica anunciou novas possibilidades com as quais alguns dos seus mais novos e maiores modelos podem terminar nas conversas no que a empresa descreve como “casos raros e extremos de interações persistentemente prejudiciais ou insultuas do usuário”. É impressionante que o Antrópico diga que faz isso para não proteger o usuário humano, mas o próprio modelo de IA.
Para deixar claro, a empresa não afirma que seus modelos de IA Claude estão cientes ou podem ser danificados por suas conversas com os usuários. Em suas próprias palavras, o antropal “muito incerto permanece sobre o status moral potencial de Claude e outros LLMs, agora ou no futuro”.
O anúncio, no entanto, aponta para um programa recente que foi feito para estudar o que as chamadas de ‘bem-estar do modelo’ e diz que o antropic em essência usa uma abordagem just-in-fase, “trabalhando na identificação e implementação de intervenções baratas para modelar o bem-estar, no caso desse bem-estar”.
A última mudança está atualmente limitada a Claude Opus 4 e 4.1. E, novamente, isso só deve acontecer em “casos extremos de borda”, como “solicitações de usuários de conteúdo sexual com menores e tentativas de solicitar informações que possibilitem uma grande violência ou atos de terror”.
Embora esses tipos de solicitações possam causar problemas legais ou de publicidade para o eu antrópico (testemunhe relatório recente sobre como o ChatGPT poderia fortalecer ou contribuir para os delírios de seus usuários), a empresa diz que, em testes de pré-implantação, o Claude Opus 4 é uma “forte preferência a esses pedidos”.
Em relação a essas novas capacidades para conversas, a empresa diz: “Em todos os casos, Claude deve apenas usar sua capacidade de conversa como último recurso quando várias tentativas de desviar falharam e a esperança de uma interação produtiva foi esgotada ou se um usuário pedir explicitamente a Claude para encerrar um bate -papo”.
Anthrópica também diz que Claude “tem como objetivo não usar essa habilidade nos casos em que os usuários podem correr o risco de prejudicar a si mesmos ou a outros”.
Evento do TechCrunch
São Francisco
|
27-29 de outubro de 2025
Quando Claude termina uma conversa, o Anthrópico diz que os usuários ainda poderão iniciar novas conversas da mesma conta e criar novas filiais da conversa difícil editando suas respostas.
“Tratamos essa função como um experimento contínuo e continuaremos a refinar nossa abordagem”, diz a empresa.