Início Tecnologia Anthrópica diz que alguns modelos de Claude agora podem acabar com as...

Anthrópica diz que alguns modelos de Claude agora podem acabar com as conversas ‘prejudiciais ou ofensivas’

30
0
Anthrópica diz que alguns modelos de Claude agora podem acabar com as conversas 'prejudiciais ou ofensivas'

A Anthrópica anunciou novas possibilidades com as quais alguns dos seus mais novos e maiores modelos podem terminar nas conversas no que a empresa descreve como “casos raros e extremos de interações persistentemente prejudiciais ou insultuas do usuário”. É impressionante que o Antrópico diga que faz isso para não proteger o usuário humano, mas o próprio modelo de IA.

Para deixar claro, a empresa não afirma que seus modelos de IA Claude estão cientes ou podem ser danificados por suas conversas com os usuários. Em suas próprias palavras, o antropal “muito incerto permanece sobre o status moral potencial de Claude e outros LLMs, agora ou no futuro”.

O anúncio, no entanto, aponta para um programa recente que foi feito para estudar o que as chamadas de ‘bem-estar do modelo’ e diz que o antropic em essência usa uma abordagem just-in-fase, “trabalhando na identificação e implementação de intervenções baratas para modelar o bem-estar, no caso desse bem-estar”.

A última mudança está atualmente limitada a Claude Opus 4 e 4.1. E, novamente, isso só deve acontecer em “casos extremos de borda”, como “solicitações de usuários de conteúdo sexual com menores e tentativas de solicitar informações que possibilitem uma grande violência ou atos de terror”.

Embora esses tipos de solicitações possam causar problemas legais ou de publicidade para o eu antrópico (testemunhe relatório recente sobre como o ChatGPT poderia fortalecer ou contribuir para os delírios de seus usuários), a empresa diz que, em testes de pré-implantação, o Claude Opus 4 é uma “forte preferência a esses pedidos”.

Em relação a essas novas capacidades para conversas, a empresa diz: “Em todos os casos, Claude deve apenas usar sua capacidade de conversa como último recurso quando várias tentativas de desviar falharam e a esperança de uma interação produtiva foi esgotada ou se um usuário pedir explicitamente a Claude para encerrar um bate -papo”.

Anthrópica também diz que Claude “tem como objetivo não usar essa habilidade nos casos em que os usuários podem correr o risco de prejudicar a si mesmos ou a outros”.

Evento do TechCrunch

São Francisco
|
27-29 de outubro de 2025

Quando Claude termina uma conversa, o Anthrópico diz que os usuários ainda poderão iniciar novas conversas da mesma conta e criar novas filiais da conversa difícil editando suas respostas.

“Tratamos essa função como um experimento contínuo e continuaremos a refinar nossa abordagem”, diz a empresa.

Fuente