Quando a IA passar nesses testes, fique esperto: será o começo da era de sistemas superinteligentes

joabe antonio de oliveira
janeiro 27, 2025

Compartilhe esta postagem

Receba nosso boletim

Se você está procurando um novo motivo para ficar nervoso com a inteligência artificial (IA), experimente este: Alguns dos seres humanos mais inteligentes do mundo estão se esforçando para criar testes nos quais os sistemas de IA não consigam passar.

Durante anos, os sistemas de IA foram avaliados por meio de uma série de testes de referência padronizados para novos modelos. Muitos desses testes consistiam em problemas desafiadores em áreas como matemática, ciências e lógica. A comparação das pontuações dos modelos ao longo do tempo serviu como uma medida aproximada do progresso da IA.

O Humanity’s Last Exam é uma criação de Dan Hendrycks, pesquisador de segurança de IA e diretor do Center for AI Safety. Foto: Guerin Blask/NYT

No entanto, os sistemas de IA acabaram se tornando bons demais nesses testes e, por isso, foram criados testes novos e mais difíceis, geralmente com os tipos de perguntas que os alunos de pós-graduação podem encontrar em seus exames.

Esses testes também não estão em boa forma. Novos modelos de empresas como OpenAI, Google e Anthropic têm obtido pontuações altas em muitos desafios de nível de doutorado, o que limita a utilidade desses testes e leva a uma pergunta inquietante: os sistemas de IA estão ficando inteligentes demais para serem medidos?

Esta semana, pesquisadores do Center for AI Safety e do Scale AI estão lançando uma possível resposta a essa pergunta: Uma nova avaliação, chamada “Humanity’s Last Exam” (Último exame da humanidade), que eles afirmam ser o teste mais difícil já realizado em sistemas de IA.

O Humanity’s Last Exam é uma criação de Dan Hendrycks, um conhecido pesquisador de segurança de IA e diretor do Center for AI Safety. O nome original do teste, “Humanity’s Last Stand” (A última resistência da humanidade), foi descartado por ser excessivamente dramático.

Hendrycks trabalhou com a Scale AI, empresa de IA da qual ele é consultor, para compilar o teste, que consiste em cerca de 3 mil perguntas de múltipla escolha e de respostas curtas, criadas para testar as habilidades dos sistemas de IA em áreas que vão da filosofia analítica à engenharia de foguetes.

As perguntas foram enviadas por especialistas nessas áreas, incluindo professores universitários e matemáticos premiados, aos quais foi solicitado que apresentassem perguntas extremamente difíceis para as quais soubessem as respostas.

“Os beija-flores da ordem Apodiformes possuem um osso oval pareado bilateralmente, um sesamoide embutido na porção caudolateral da aponeurose cruzada expandida de inserção do m. depressor caudae. Quantos tendões emparelhados são sustentados por esse osso sesamoide?” Responda com um número.

Ou, se a física for mais o seu forte, tente esta questão:

“Um bloco é colocado em um trilho horizontal, ao longo do qual ele pode deslizar sem atrito. Ele está preso à extremidade de uma haste rígida e sem massa de comprimento R. Uma massa está presa na outra extremidade. Ambos os objetos têm peso W. O sistema está inicialmente estacionário, com a massa diretamente acima do bloco. A massa recebe um empurrão infinitesimal, paralelo ao trilho. Suponha que o sistema tenha sido projetado de modo que a haste possa girar 360 graus completos sem interrupção. Quando a haste está na horizontal, ela carrega a tensão T1. Quando a haste está novamente na vertical, com a massa diretamente abaixo do bloco, ela carrega a tensão T2. (Essas duas quantidades podem ser negativas, o que indicaria que a haste está em compressão). Qual é o valor de (T1-T2)/W?”

Eu imprimiria as respostas aqui, mas isso estragaria o teste para qualquer sistema de IA, que esteja sendo treinado nesta coluna. Além disso, sou burro demais para verificar as respostas por mim mesmo.

As perguntas do Humanity’s Last Exam passaram por um processo de filtragem em duas etapas. Primeiro, as perguntas enviadas eram dados aos principais modelos de IA para serem resolvidas.

Se os modelos não conseguissem respondê-las (ou se, no caso de perguntas de múltipla escolha, os modelos se saíssem pior do que adivinhando aleatoriamente), as perguntas eram entregues a um grupo de revisores humanos, que as refinavam e verificavam as respostas corretas. Os especialistas que escreveram as perguntas mais bem avaliadas receberam entre US$ 500 e US$ 5 mil por pergunta, além de receberem crédito por terem contribuído para o exame.

Kevin Zhou, pesquisador de pós-doutorado em física de partículas teóricas da Universidade da Califórnia, em Berkeley, enviou algumas perguntas para o teste. Três de suas perguntas foram escolhidas, e ele me disse que todas elas estavam “na faixa superior do que se pode ver em um exame de pós-graduação”.

Hendrycks, que ajudou a criar um teste de IA amplamente utilizado, conhecido como Massive Multitask Language Understanding, ou M.M.L.U., disse que se inspirou em uma conversa com Elon Musk para criar testes de IA mais difíceis. Hendrycks também é consultor de segurança da empresa de IA de Musk, a xAI. Musk, segundo ele, levantou preocupações sobre os testes existentes dados aos modelos de IA, que ele considerava muito fáceis.

“Elon analisou as perguntas da M.M.L.U. e disse: ‘Essas perguntas são de nível de graduação. Quero coisas que um especialista de nível mundial possa fazer’”, disse Hendrycks.

Há outros testes que tentam medir as capacidades avançadas de I.A. em determinados domínios, como o FrontierMath, um teste desenvolvido pela Epoch AI, e o ARC-AGI, um teste desenvolvido pelo pesquisador de IA François Chollet.

Mas o objetivo do Humanity’s Last Exam é determinar a capacidade dos sistemas de IA de responder a perguntas complexas em uma ampla variedade de assuntos acadêmicos, dando-nos o que pode ser considerado uma pontuação de inteligência geral.

“Estamos tentando estimar até que ponto a IA pode automatizar uma série de trabalhos intelectuais realmente difíceis”, disse Hendrycks.

Depois que a lista de perguntas foi compilada, os pesquisadores aplicaram o Humanity’s Last Exam a seis modelos de IA. importantes, incluindo o Gemini 1.5 Pro do Google e o Claude 3.5 Sonnet da Anthropic. Todos eles falharam miseravelmente. O sistema o1 da OpenAI obteve a maior pontuação do grupo, com uma pontuação de 8,3%.

Hendrycks disse que espera que essas pontuações aumentem rapidamente e, possivelmente, ultrapassem 50% até o final do ano. Nesse momento, disse ele, os sistemas de IA poderão ser considerados “oráculos de classe mundial”, capazes de responder a perguntas sobre qualquer assunto com mais precisão do que os especialistas humanos. E talvez tenhamos que procurar outras formas de medir os impactos da IA, como analisar os dados econômicos ou avaliar se ela pode fazer novas descobertas em áreas como matemática e ciências.

“É possível imaginar uma versão melhor dessa prova, na qual podemos fazer perguntas para as quais ainda não sabemos as respostas e podemos verificar se o modelo é capaz de ajudar a resolvê-las para nós”, disse Summer Yue, diretora de pesquisa da Scale AI e organizadora do exame.

Parte do que é tão confuso sobre o progresso da IA atualmente é o quanto ele é irregular. Temos modelos de IA capazes de diagnosticar doenças com mais eficiência do que médicos humanos, ganhar medalhas de prata na Olimpíada Internacional de Matemática e vencer os melhores programadores humanos em desafios competitivos de codificação.

Mas esses mesmos modelos às vezes têm dificuldades em tarefas básicas, como aritmética ou escrever poesia com métrica. Isso lhes deu a reputação de serem incrivelmente brilhantes em algumas coisas e totalmente inúteis em outras, e criou impressões muito diferentes sobre a rapidez com que a IA está melhorando, dependendo se você está analisando os melhores ou os piores resultados.

Essa irregularidade também dificultou a medição desses modelos. Escrevi no ano passado que precisamos de melhores avaliações para os sistemas de IA. Ainda acredito nisso. Mas também acredito que precisamos de métodos mais criativos para acompanhar o progresso da IA que não dependam de testes padronizados, porque a maior parte do que os humanos fazem – e o que tememos que a IA faça melhor do que nós – não pode ser capturada em um exame escrito.

Zhou, pesquisador de física de partículas teóricas que enviou as perguntas para o Humanity’s Last Exam, me disse que, embora os modelos de IA muitas vezes fossem impressionantes para responder a perguntas complexas, ele não os considerava uma ameaça para ele e seus colegas, porque o trabalho deles envolve muito mais do que dar respostas corretas.

“Há um grande abismo entre o que significa fazer um exame e o que significa ser um físico e pesquisador na prática”, disse ele. “Mesmo uma IA capaz de responder a essas perguntas pode não estar pronta para ajudar na pesquisa, que é inerentemente menos estruturada.”

Este conteúdo foi traduzido com o auxílio de ferramentas de Inteligência Artificial e revisado por nossa equipe editorial. Saiba mais em nossa Política de IA.

Source link