IA estará pronto para obter nota máxima em um dos testes de conhecimento mais desafiadores do mundo, denominado Último Exame da Humanidade (HLE), em questão de meses, afirmam os desenvolvedores.
O HLE foi criado por chefes de tecnologia para ver o quão inteligentes são seus sistemas e consiste em 2.500 perguntas meticulosamente escolhidas, abrangendo cerca de uma centena de tópicos, desde ciência de foguetes e mitologia até fisiologia.
Cada um deles requer pelo menos níveis de compreensão de doutorado e alcançar uma pontuação próxima de 100 por cento daria a alguém o título de “especialista universal”.
Há apenas dois anos, o tão alardeado Bate-papoGPT sistema de OpenAI obteve apenas 3% no exame com seus rivais em Google e Antrópico não está muito melhor.
O teste serviu para atenuar os receios sobre o crescente domínio da IA, com os investigadores a afirmarem que provou que existia “uma lacuna acentuada” entre os grandes modelos de linguagem (LLMs) e os melhores académicos do mundo.
Mas o aparentemente impossível HLE pode revelar-se apenas mais um marco na ascensão imparável da IA.
O Google Gemini obteve impressionantes 45,9% no exame no mês passado, tendo subido para uma pontuação de 18,8% meses após sua primeira tentativa.
E a nota máxima está no horizonte, de acordo com Calvin Zhang, líder de pesquisa da Scale, a empresa de IA por trás da HLE.
A IA estará pronta para obter nota máxima em um dos testes de conhecimento mais desafiadores do mundo, denominado Último Exame da Humanidade (HLE), em questão de meses, afirmam os desenvolvedores (Foto de estoque)
“Queríamos criar esta referência académica fechada, definida na fronteira dos humanos especialistas, que apenas um punhado de pessoas na Terra pode realmente resolver”, disse ele.
‘Temos visto nos últimos anos um progresso insano nesses modelos de linguagem. É impressionante, os construtores de modelos realmente fizeram um ótimo trabalho ao melhorar esses modelos de raciocínio.’
Kate Olszewska, gerente de produto do Google DeepMind, acrescentou: “Se realmente nos importássemos com isso como a única coisa na vida, acho que poderíamos chegar lá muito rapidamente”.
A Anthropic – a empresa por trás do sistema Claude AI – alcançou uma pontuação de 34,2% no HLE e está melhorando suas pontuações em um ritmo rápido.
A IA que retornasse uma pontuação de 100 por cento no exame seria um desenvolvimento significativo, uma vez que o teste foi “projetado para ser a referência acadêmica final fechada desse tipo”, de acordo com seus autores.
Isso significa que se a tecnologia quebrar o HLE, ela precisará ser testada em questões para as quais nenhum ser humano sabe a resposta no futuro.
O teste foi criado por investigadores da Scale e do Center for AI Safety, uma organização sem fins lucrativos, para examinar tanto a amplitude do conhecimento da IA como a sua profundidade de raciocínio.
Especialistas de cerca de 50 países submeteram 70.000 perguntas para consideração em resposta a um apelo global em Setembro de 2024 que ofereceu um prémio de 500.000 dólares.
Eles precisavam exigir uma resposta curta e inequívoca e ser difíceis de encontrar na Internet.
A lista foi reduzida para 13.000 depois que questões que qualquer modelo existente poderia responder foram retiradas de consideração.
Alguns dos 2.500 escolhidos foram removidos ou editados após feedback dos usuários.
Exigem uma vasta gama de conhecimentos especializados – desde conhecimentos de biologia até à proficiência em línguas – e um grande número deles permaneceu secreto numa tentativa de impedir que os sistemas beneficiassem de respostas discutidas publicamente online.
O sucesso no HLE evocaria memórias do supercomputador Deep Blue da IBM derrotando o campeão mundial de xadrez Garry Kasparov num jogo em 1997, confundindo as previsões da maioria dos especialistas.
Desde então, uma série de benchmarks importantes de IA foram aprovados, incluindo o multidisciplinar Massive Multitask Language Understanding, lançado em 2020, que foi cancelado depois que os sistemas começaram a considerá-lo muito fácil, muitas vezes com pontuação acima de 90 por cento.
À medida que a IA se aproxima da fase em que pode dominar os testes feitos pelo homem, a expansão para além dos limites existentes do conhecimento humano tornou-se cada vez mais o foco principal dos desenvolvedores, acrescentou Olszewska.
Mas sempre haverá espaço para a especialização humana, de acordo com Zhang, com áreas físicas como a cirurgia, bem como habilidades baseadas em decisões, incluindo julgamento e criatividade, mais difíceis de serem dominadas pela IA.
