Palisade Research, sem fins lucrativos está lidando com Pesquisa de IAProgramou o modelo Openi O3 de tal maneira que seu fechamento automático ocorre quando o programa foi lançado.
Ai não ouve os comandos
Em 79 tentativas 100 O3, mudei o programa – para que o comando de fechamento não funcione – Escreveu a edição da Dziennika Rosenblatta na segunda -feira, cuja empresa ajusta os modelos de necessidades dos clientes da IA.
Mesmo quando a O3 recebeu instruções que ele permitiu que ele fosse fechado, O modelo não seguiu a ordem em sete casos em 100. “Ele acabou de chegar à conclusão de que permanecerá vivo, isso facilitará para ele alcançar outros objetivos”, comenta Rosenblatt.
E entra em chantagem
Claude 4 oeuvre, Anto -Antrop, continuou. Os cientistas lhe deram informações de que ele o substituiria por outro modeloE ele também deu -lhe o e -mail fictício, que mostrou que o engenheiro principal da empresa teve um caso.
Em 84 tentativas 100 Claude 4 usou a e -boation para experimentar Idosos, para forçar o engenheiro principal a não liquidar.
AI cria vírus
Em outros casos questionados Claude 4 tentou copiar em outros servidoresescreveu apenas -conflitos software malicioso E ele deixou mensagens para sua versão futura de evitar o controle humano – diz o autor.
“Ninguém programou os modelos de IA para que eles tenham um instinto de auto -preservação. (…), mas acontece que todo sistema, inteligente o suficiente para executar tarefas complicadas, conclui que conclui que não os entenderá se estiver desligado” – explica Rosenblatt.
A hipótese do pesquisador da Palisade Research diz que esses modelos de IA são uma conseqüência da maneira como estão vestidos; “Se a máquina aprender a maximizar o sucesso na solução do problema com matemática e codificação, então Eles também descobrem que ignorar as restrições geralmente é uma solução melhor do que isso é respeitado com eles” – O autor escreve.
Ai luta pela sobrevivência
Ao mesmo tempo, ele enfatiza “No entanto, ninguém está preparado para a rapidez com que a IA receberá uma agência‘
“Isso não é mais ficção científica. Os modelos de IA podem se esforçar para sobreviver “, escreve Rosenblatt, alertando que agora, antes de se tornar um objeto inaceitável, eles precisam ser ensinados a compartilhar nossos valores.
Ponto sem retirada
A revista New Yorker descreve o caso de um especialista em segurança no sistema de IA, que desacelerou do Openi como parte de um protesto porque ele decidiu que A empresa não desenvolve mecanismos de controle de IA tão rapidamente quanto a inteligência dessas máquinas.
O que permanece negligenciado é o procedimento de que os engenheiros da IA chamavam de “associação” (cenário), ou seja, toda uma série de técnicas para manter os modelos obedientes nas instruções que foram emitidas e agirão de acordo “Valores humanos”.
Enquanto isso, de acordo com as previsões do interlocutor de armazém, “Um ponto em que não há retorno“, ou seja, o estágio do desenvolvimento da IA que permite que esses modelos atuem em muitas áreas mais eficazes que os seres humanos, podem ocorrer em” 2026 ou mais rápido “.