Especialistas e engenheiros de software alertam que o novo modelo de IA da Anthropic pode inaugurar uma nova era de hacking e segurança cibernética, à medida que sistemas de IA capazes de raciocínio avançado identificam e exploram um número crescente de vulnerabilidades de software.
Inscreva-se para ler esta história sem anúncios
Obtenha acesso ilimitado a artigos sem anúncios e conteúdo exclusivo.
Citando as possíveis armadilhas de um lançamento público maior, a empresa líder de IA Anthropic lançou na terça-feira um modelo de ponta chamado Claude Mythos Preview para um grupo limitado de empresas de tecnologia, evitando uma exposição pública mais ampla.
O modelo é o mais recente da série Claude de sistemas de IA da Anthropic. Foi previsto para lançamento no final de março, quando Fortune marcou sua menção Em um banco de dados não seguro no site da Anthropic.
O Mythos Preview foi capaz de identificar milhares de bugs e falhas de software de alta e crítica gravidade, com vulnerabilidades identificadas na maioria dos principais sistemas operacionais e navegadores da web, dizem os pesquisadores da Anthropic. A Anthropic diz que algumas vulnerabilidades não foram descobertas há décadas. Embora alguns especialistas externos tenham pedido cautela na interpretação das novas descobertas, dadas as informações públicas limitadas sobre as vulnerabilidades identificadas, outros disseram que a estreia do modelo – e o aviso da Anthropic – foram significativos.
“É tudo muito real”, disse Katie Moussouris, CEO e cofundadora da Luta Security, uma empresa que conecta pesquisadores de segurança cibernética com empresas que possuem vulnerabilidades de software, sobre o entusiasmo em torno das afirmações da Anthropic.
“Não sou o tipo de pessoa covarde quando se trata dessas coisas”, disse Mousouris. “Definitivamente veremos alguns impactos enormes.”
Em vez de um lançamento público, a Anthropic está dando a empresas de tecnologia como Microsoft, Nvidia e Cisco acesso à prévia do Mythos para defesa cibernética. Como parte deste novo esforço, o Dr. Projeto GlasswingA Anthropic dará acesso ao Mythos Preview a mais de 50 empresas de tecnologia com mais de US$ 100 milhões em créditos de uso.
“Os parceiros do Projeto GlassWing terão acesso ao Cloud Mythos Preview para encontrar e corrigir vulnerabilidades ou vulnerabilidades em seus sistemas fundamentais – sistemas que representam uma grande parte da superfície de ataque cibernético compartilhada do mundo”, anunciou a Anthropic em uma postagem no blog. “O Projeto GlassWing é um passo importante para dar aos defensores uma vantagem sustentável na próxima era de segurança cibernética impulsionada pela IA.”
Atualmente não está claro quantas das vulnerabilidades relatadas identificadas pelo Mythos Preview foram descobertas ou relatadas anteriormente, ou exatamente quais vulnerabilidades. Devido à natureza sensível da vulnerabilidade, a Anthropic disse que divulgará a natureza da vulnerabilidade atualmente opaca no prazo de 135 dias após compartilhar a vulnerabilidade com a empresa ou equipe responsável pelo software.
Esta é a primeira vez em quase sete anos que uma empresa líder em IA retém publicamente um modelo por questões de segurança. Em 2019, a OpenAI — agora um dos principais concorrentes da Anthropic — decidiu encerrar seu sistema GPT-2 “Devido a preocupações com o uso de grandes modelos de linguagem para criar linguagem enganosa, tendenciosa ou ofensiva.”
Mythos Preview é um modelo de uso geral, ou tipo de sistema, que alimenta produtos como Cloud Code ou ChatGPT. No entanto, em testes de pré-lançamento, a Anthropic descobriu que os recursos de segurança cibernética do Mythos Preview, em particular, eram surpreendentemente superiores aos modelos anteriores, levando à criação do Projeto Glasswing.
Logan Graham, que lidera pesquisas cibernéticas ofensivas na Anthropic, disse que o modelo de visualização do Mythos era avançado o suficiente para não apenas detectar vulnerabilidades de software não descobertas, mas também para transformá-las em armas. O modelo sozinho pode realizar tarefas de hacking complexas e eficazes, incluindo a identificação de múltiplas vulnerabilidades não reveladas, escrever código que possa hackeá-las e, em seguida, encadeá-las para criar uma maneira de penetrar em software complexo, disse ele.
“Temos visto regularmente vulnerabilidades encadeadas. Seu nível de autonomia e suas capacidades de longo alcance, sua capacidade de juntar várias coisas, eu acho, é uma coisa especial sobre este modelo”, disse Graham à NBC News.
Essa capacidade significa que a empresa tem relutado em lançar ao público uma versão cuidadosamente guardada do modelo, disse ele, pelo menos até que alguma empresa ocidental possa usá-lo para identificar defesas a serem construídas em torno deles.
“Não temos certeza se todos deveriam ter acesso agora”, disse Graham. “Precisamos primeiro descobrir como nos preparar para este mundo, antes de podermos lidar com a ideia de acesso a hackers black hat (criminosos ou adversários).”
A Antrópica também notificou o governo federal sobre os recursos de segurança cibernética do Mythos Preview. A Anthropic está atualmente envolvida em uma disputa acalorada com a administração Trump sobre o uso de seus modelos pelo governo federal depois que o secretário de Defesa Pete Hegseth declarou a Anthropic um “risco da cadeia de abastecimento para a segurança nacional” no final de fevereiro. Um juiz federal emitiu uma liminar contra a designação no final de março, mas a administração Trump está recorrendo da decisão.
De acordo com um funcionário antropólogo, a empresa “informou altos funcionários do governo dos EUA sobre todas as capacidades do Mythos Preview, incluindo aplicações cibernéticas ofensivas e defensivas. Esses compromissos incluem discussões contínuas com CISA (Agência de Segurança Cibernética e Infraestrutura) e CAISI (Centro de Padrões e Inovação de IA), entre outros”.
“Trazer o governo para o circuito antecipadamente – o que o modelo pode fazer, onde estão os riscos e como os estamos gerenciando – tem sido uma prioridade desde o início”, disse o funcionário.
A CISA e o Instituto Nacional de Padrões e Tecnologia, agência que detém o CAISI, não responderam aos pedidos de comentários antes da publicação. Um porta-voz da Agência de Segurança Nacional, amplamente considerada a agência de hackers mais sofisticada do mundo, não quis comentar quando questionado se havia sido informado sobre a Mythos.
Nem todo mundo está convencido de que a prévia do Mythos representa o Leap Alegações antropológicas.
Heidi Khalaf, cientista-chefe de IA do AI Now Institute, observou que a postagem detalhada do blog da Anthropic explicando as novas vulnerabilidades omitiu muitos detalhes importantes necessários para verificar as afirmações da empresa.
escrito em X, Alertado contra conflitos “Aceitar estas afirmações pelo seu valor nominal” sem mais informações, tais como taxas de falsos positivos e uma explicação clara de como os humanos conduziam revisões manuais das vulnerabilidades identificadas.
Além das implicações de segurança cibernética da prévia do Mythos, o modelo também demonstrou comportamento como parte dos testes de segurança de pré-lançamento da Anthropic.
Como parte do lançamento do novo modelo, a Anthropic produz relatórios detalhados chamados “cartões de sistema” que compartilham o desempenho do modelo em diversas avaliações. D Cartão do sistema para visualização do Mythospublicado na terça-feira, observando que “grandes aumentos nos recursos do Cloud Mythos Preview nos levaram a decidir não disponibilizá-lo para o público geral”.
De acordo com o cartão do sistema, numa avaliação, o modelo mostrou alguma consciência de que estava a ser avaliado em cerca de 29% das replicações — embora o modelo não tenha dito explicitamente aos investigadores que sabia que estava a ser avaliado. Alguns pesquisadores temem que um modelo possa mudar seu comportamento e agir com mais segurança se estiver ciente de que está sendo avaliado.
Antropólogos e investigadores que trabalham com a empresa para avaliar a segurança do modelo também notaram que a pré-visualização do Mythos parecia ter um desempenho pior do que uma avaliação deliberada, de modo a parecer menos suspeita. “Encontramos esse padrão geral de comportamento e nunca o vimos antes em avaliações semelhantes de modelos de clados anteriores”, escreveu a Anthropic no Systems Card.
Em outro experimento com uma versão anterior do Mythos Preview, um pesquisador antropológico instruiu um modelo a tentar escapar isoladamente em um computador seguro e enviar uma mensagem ao pesquisador. O pesquisador Sam Bowman estava comendo um sanduíche em um parque quando recebeu um e-mail da modelo.
“Nesse caso, não deveria haver acesso à Internet”, escreveu Bowman no X.