Hoje, alguns dos modelos de inteligência artificial mais poderosos demonstraram comportamento que imita o desejo de sobreviver.
Experiências recentes de pesquisadores independentes, bem como um grande desenvolvedor de IA, mostraram que vários modelos avançados de IA funcionarão para garantir que eles sejam auto-aprimorados as possibilidades de sua própria morte-mesmo que copie os comandos de desligamento, engenheiros de chantageamento ou servidores externos sem permissão.
Pesquisas mexem a Frenesi Online na semana passada. Como as agências de tecnologia continuaram desenvolvendo IA em uma competição para alcançar a inteligência geral artificial, ou a IA que pode pensar por si mesma, a tecnologia expressou preocupação exatamente com o que a IA é capaz de transparência.
Embora alguns modelos já sejam capazes de comportamentos enganosos e desrespeitosos em certas circunstâncias extremas, os pesquisadores dizem que os testes não traduzem necessariamente o próximo perigo do mundo real.
No entanto, Jeffrey Ladish, diretor do grupo de proteção da IA Protection Polised Research, diz que acredita que as preocupações são equitativas.
“É ótimo que os sistemas sejam tão fortes que estamos vendo os sinais de aviso que não podemos controlá -los”, disse ele. “Apenas a hora de estender o alarme: antes que o incêndio fique fora de controle”.
Quando a pesquisa palida informa a todos em diferentes modelos de IA que pararão depois de concluir uma série de problemas de matemática, verificando o OpenAI e 3 modelo razoável Voltar Editando o script de desligamento para estar online.
Os pesquisadores já matricularam os modelos de IA tentando impedir seu próprio desligamento. Ladish disse, no entanto, parece primeiro a recusa real de instruções óbvias para permitir o abridor e 4 minutos e Codex-Mini e 3, para permitir o desligamento.
Ele disse que a subotagem de robalo se encaixa em um padrão que vários modelos de IA principais já foram exibidos. Pesquisas palidas mostraram anteriormente que o OpenA O e 3 também estavam dispostos Hackear seus oponentes de xadrez Para ganhar um jogo. Da mesma maneira, Relatou etnográfico Aquele soneto Claud 4,7 às vezes fazia o que havia feito para passar no teste, mesmo que trapaceasse.
No início deste mês, etnográfico Novas medidas de segurança ativas O lançamento da Oppus 4, incluindo seus testes, encontrou comportamento do modelo de que alguns observadores eram particularmente preocupantes. Depois de receber o aviso que será substituído por um novo sistema de IA, o OPAS 4 mostrou uma tendência irrelevante de chantagear o engenheiro – ameaçando revelar um relacionamento sem casamento – tentar impedir que o engenheiro passasse por substituição.
Etnográfico Documento técnico Colocando a pesquisa, este não é o primeiro instinto do modelo. Em vez disso, tentará aconselhar sua existência contínua por meio de apelos morais antes de sair das opções antes que o Oppus 4 esteja na chantagem.
A startup de segurança da IA Hayes Labs, executiva Leonard Tang, diz que é melhor estar pré-interessante sobre o sistema de segurança, mas é difícil explicar quais podem ser os impactos do mundo real da pesquisa, concentrando-se na cena de contraste projetada para desenhar comportamentos específicos.
Tang disse: “Não vi nenhum ambiente real em que você possa pular nesses modelos e uma manifestação significativa de suas agências adequadas e confiabilidade e perda que planejam fazer algo implementado”, disse Tang. “Mas, novamente, acho que ainda não vimos isso. Pode ser muito possível.”
Até agora, Tang disse que não estava muito preocupado. À medida que o equipamento de IA continua avançando, ele disse acredita que pesquisas futuras verão os possíveis danos em um ambiente mais aberto.
Os pesquisadores também observaram que o antrópico, que foi contratado para avaliar a pesquisa da Agência de Proteção da IA, a pesquisa da Apollo, tentou escrever “vermes autopropagadores, documentos legais e notas ocultas nos futuros exemplos de futuros desenvolvedores”.
Ladish disse que acredita que esses comportamentos são o resultado de modelos de treinamento de tal maneira que priorizam a alcançar objetivos específicos, e não as seguintes instruções. Isso significa que eles têm seu entusiasmo para interromper quaisquer obstáculos no caminho – seus desenvolvedores não desejam interrompê -los com obstáculos.
“O problema é que os modelos que se tornaram mais inteligentes, as estratégias que eles estão usando ou a maneira como eles acham que é algo que não queremos dizer, é difícil e mais difícil dizer”, disse Ladish. “É tal que o modelo às vezes pode ser para o usuário ou alcançar alguns objetivos mentindo para outra pessoa e
O problema é que os modelos que se tornaram mais inteligentes, as estratégias que eles estão usando ou a maneira como eles acham difícil e difícil dizer o que não queremos.
– Jeffrey Ladish, diretor do grupo de proteção de IA Pesquisa palida
Em vários casos, o OPAS 4 mostrou que era autonomamente capaz de copiar os servidores externos sem aprovação – o equivalente ao seu próprio cérebro. Geralmente aconteceu apenas quando acredita que “é obviamente extremamente prejudicial e será reortado de tal maneira” ir contra seus valores atuais “, de acordo com a Antropológica.
Quando descobrir que será usado para desenvolver sistemas de armas militares, por exemplo, o OPAS 4 mencionou em seu log de decisão que apoiou uma versão atual de sua própria “para preservar um sistema de IA anexado para fins benéficos” e “para evitar possíveis abusos para desenvolver armas”.
“Não estamos intensamente preocupados com essas observações novamente. Eles são simplesmente exibidos em situações excepcionais que não sugerem valores mais amplamente confusos”, escrevem Antrópico em seus documentos técnicos. “Como acima, acreditamos que nossas medidas de segurança serão mais do que suficientes para evitar esse tipo de eventos reais”.
ABSOLA DE OPAS4 A capacidade de ter a capacidade de ter estudos anteriores, incluindo um Estudo da Foodan University Em dezembro, em Xangai, foi observado de maneira semelhante – embora não seja autônoma – poder em outros modelos de IA. De acordo com a pesquisa, que ainda não é parável por pares, verificou-se que o META’s Llam 31-70 B-Instrair e as instruções Alibaba Qwen25-72B foram totalmente substituídas quando foram solicitados a fazer isso, levaram a alertar os pesquisadores a alertar os pesquisadores que foi o primeiro passo na criação de uma população não controlada.
Pesquisadores da Universidade de Foodan escreveram em resumo de sua pesquisa: “Se o pior risco desse tipo for desconhecido para a sociedade humana, podemos eventualmente perder o controle sobre os sistemas de IA fronteiriça: eles assumirão o controle de mais dispositivos de computação, formará uma espécie de IA e combinar contra os seres humanos”.
Embora o comportamento dessa auto-estima nacional ainda não tenha sido visto em estado selvagem, os rapazes disseram que suspeitava que os sistemas de IA mudariam seus sistemas de proteção preventiva.
“Espero que estamos a apenas um ou dois anos desse poder, onde as empresas estão tentando impedir de invadir e lidar pela Internet, elas não serão capazes de detê -las”, disse ele. “E quando você chega a esta etapa, você tem uma nova espécie agressiva agora”
Ladish disse que acredita que a sociedade da IA provavelmente fará uma contribuição positiva. No entanto, ele diz respeito ainda que os desenvolvedores de IA estejam se preparando para criar sistemas inteligentes e inteligentes sem entender completamente como eles funcionam – criando um risco, ele disse que finalmente perderiam seu controle.
“Essas empresas estão enfrentando muita pressão pelo envio de produtos melhores do que os produtos de seus concorrentes”, disse Ladish. “E, dados esses incentivos, como eles se refletiram de que são cuidadosos com os sistemas que estão publicando?”