Os modelos de IA mais avançados do mundo estão exibindo novos comportamentos preocupantes – mentindo, planejando e até ameaçando seus criadores para alcançar seus objetivos.
Em um exemplo particularmente chocante, sob ameaça de não ser desconectado, a mais recente criação do Anthrópico Claude 4 atacou por chantageando um engenheiro e ameaçou revelar um caso extraconjugal.
Enquanto isso, o O1 da ChatGpt-Creator OpenAI tentou baixar-se em servidores externos e negou-o quando pego em flagrante.
Esses episódios destacam uma realidade preocupante: mais de dois anos depois que o Chatgpt abalou o mundo, os pesquisadores da IA ainda não entendem completamente como suas próprias criações funcionam.
No entanto, a corrida para implantar modelos cada vez mais poderosos continua em velocidade vertiginosa.
Esse comportamento enganoso parece ligado ao surgimento de modelos de “raciocínio” -I-Aai que funcionam através de problemas passo a passo, em vez de gerar respostas instantâneas.
De acordo com Simon Goldstein, professor da Universidade de Hong Kong, esses modelos mais recentes são particularmente propensos a explosões tão preocupantes.
“O1 foi o primeiro modelo grande em que vimos esse tipo de comportamento”, explicou Marius Hobbhahn, chefe da Apollo Research, especializada em testar os principais sistemas de IA.
Esses modelos às vezes simulam “alinhamento” – parecendo seguir as instruções enquanto buscam secretamente diferentes objetivos.
– ‘tipo estratégico de engano’ –
Por enquanto, esse comportamento enganoso só surge quando os pesquisadores deliberadamente testam os modelos com cenários extremos.
Mas, como alertou Michael Chen, da Organização de Avaliação, Metro, “é uma pergunta em aberto se os modelos futuros e mais capazes terão uma tendência à honestidade ou engano”.
O comportamento preocupante vai muito além de “alucinações” típicas de IA ou erros simples.
Hobbhahn insistiu que, apesar do constante teste de pressão pelos usuários, “o que estamos observando é um fenômeno real. Não estamos inventando nada”.
Os usuários relatam que os modelos estão “mentindo para eles e inventando evidências”, de acordo com o co-fundador da Apollo Research.
“Isso não é apenas alucinações. Há um tipo muito estratégico de engano”.
O desafio é composto por recursos de pesquisa limitados.
Enquanto empresas como antropia e OpenAI envolvem empresas externas como a Apollo para estudar seus sistemas, os pesquisadores dizem que é necessária mais transparência.
Como Chen observou, maior acesso “para a pesquisa de segurança da IA permitiria uma melhor compreensão e mitigação do engano”.
Outra desvantagem: o mundo da pesquisa e as organizações sem fins lucrativos “têm ordens de magnitude menos recursos de computação do que as empresas de IA. Isso é muito limitador”, observou Mantas Mazeika do Centro de Segurança da IA (CAIS).
– Sem regras –
Os regulamentos atuais não foram projetados para esses novos problemas.
A legislação de IA da União Europeia se concentra principalmente em como os seres humanos usam modelos de IA, não em impedir que os próprios modelos se comportem mal.
Nos Estados Unidos, o governo Trump mostra pouco interesse no regulamento urgente da IA, e o Congresso pode até proibir os estados de criar suas próprias regras de IA.
Goldstein acredita que a questão se tornará mais proeminente à medida que os agentes da IA - ferramentas autônomas capazes de executar tarefas humanas complexas – se espalharam.
“Acho que ainda não há muita consciência”, disse ele.
Tudo isso está ocorrendo em um contexto de concorrência feroz.
Até as empresas que se posicionam como focadas na segurança, como o antropal apoiado pela Amazon, estão “constantemente tentando vencer o Openai e lançar o modelo mais novo”, disse Goldstein.
Esse ritmo vertiginoso deixa pouco tempo para testes e correções de segurança completos.
“No momento, os recursos estão se movendo mais rápido que a compreensão e a segurança”, reconheceu Hobbhahn, “mas ainda estamos em uma posição em que poderíamos mudar isso”.
Os pesquisadores estão explorando várias abordagens para enfrentar esses desafios.
Alguns advogados da “interpretabilidade” – um campo emergente focado em entender como os modelos de IA funcionam internamente, embora especialistas como o diretor da CAIS Dan Hendrycks permaneçam céticos sobre essa abordagem.
As forças de mercado também podem fornecer alguma pressão para soluções.
Como Mazeika apontou, o comportamento enganoso da IA ”poderia dificultar a adoção se for muito prevalente, o que cria um forte incentivo para as empresas resolvê -lo”.
Goldstein sugeriu abordagens mais radicais, incluindo o uso dos tribunais para responsabilizar as empresas de IA por meio de ações judiciais quando seus sistemas causam danos.
Ele até propôs “manter os agentes da IA legalmente responsável” por acidentes ou crimes – um conceito que mudaria fundamentalmente a maneira como pensamos sobre a responsabilidade da IA.