Os “12 dias de OpenAI” terminaram na sexta, 20, com o anúncio de uma inteligência artificial (IA) que raciocina, calcula e programa igual – ou melhor – do que os humanos, o OpenAI o3. O lançamento do modelo foi além de uma simples atualização (do o1 para o3) de modelo e abriu a discussão se a nova IA atingiu o status de AGI (inteligência artificial geral, em tradução livre), um tipo de sistema com capacidade sobre-humana que existe apenas na ficção científica.
A novidade, que contrário da família “GPT” foca em raciocínio lógico, matemática e programação, por enquanto está nas mãos pesquisadores de segurança porque “exibe sinais de avanços poderosos” e só deve chegar ao público no começo de 2025.
Mas afinal, o que o modelo o3 da OpenAI realmente faz? Em testes que medem a performance de modelos de inteligência artificial (IA) em situações sem treinamento, o o3 superou muito seus antecessores, nos quais os modelos da série o1 tiveram pontuações entre 8% e 32%. Em tarefas de engenharia de software e programação, ele alcançou, respectivamente, 71,7% de precisão e 2727 de score. Humanos com alto score neste teste, considerados “mestres da programação”, costumam ter nota de 2.400. Humanos “especialistas em programação” têm nota entre 1400 e 1999. Isso significa que a companhia otimizou a arquitetura do o3 ao nível que problemas complexos são resolvidos com uso mais eficiente de recursos computacionais.
Outras referências, como em benchmark matemático, também foram superadas pelo o3, que atingiu 25,2% de precisão contra 2% dos modelos anteriores. Ou seja, houve melhoria de mais de 10 vezes na compreensão e resolução de exercícios, teóricos ou práticos, de lógica, álgebra, cálculo e geometria.
Porém, o que de fato a empresa destacou foi a pontuação do teste que avalia a capacidade de raciocínio e abstração: o ARC-AGI. Nessa avaliação, um conjunto de tarefas são realizadas para avaliar a habilidade de uma IA em resolver problemas de raciocínio abstrato e generalização, duas características essenciais para sistemas que buscam se aproximar da AGI. As tarefas são baseadas em grades (grids) com padrões inferidos e aplicados. Cada tarefa tem um conjunto de exemplos (pares entrada-saída ou input e output) que mostram como uma operação deve ser feita. O desafio central é que as regras não são fornecidas de maneira explícita, a IA deve escolhe-las e aplicá-las por conta própria.
A nota oficial foi de 75,7%, mas uma extraoficial registrou score de 87,5% no uso eficiente de recursos computacionais. A segunda nota não foi reconhecida porque a empresa não cumpriu todos os critérios da prova. Para comparação, humanos têm, em geral, 84% de pontuação no mesmo teste e desde a criação do ARC Challenge a marca de 85% – aliados ao cumprimento do todas as regras – sempre foi suficiente para vencer o prêmio de US$ 600 mil.
De qualquer maneira, essas métricas serviram para mostrar a potência dez vezes superior do lançamento em comparação aos modelos da série o1. A restrição de custo nos testes exigia que as soluções devessem ter o valor máximo de US$ 100 mil na soma de processamento de hardware (como GPUs ou TPUs) e energia consumida para executar todas as tarefas. O custo computacional da conquista foi de aproximadamente US$ 20 para cada tarefa de quebra-cabeça visual, o que atendia ao limite da competição. Porém, no teste ‘privado’ e mais difícil, o limite era US$ 0,10 por tarefa, valor que a OpenAI não atingiu.
Todas as conquistas anunciadas estão apoiadas na competição realizada pela ARC Challenge. Em resumo, ela usa um conjunto de tarefas para avaliar a habilidade de uma IA sem treinamento prévio.
Portanto, é certo afirmar que a OpenAI o3 é AGI?
A OpenAI afirma que sim e justifica a resposta na capacidade de adaptação e aprendizado alcançada pelo modelo nos testes.
Porém, críticos mais duros da empresa comandada por Sam Altman dizem que não. Segundo Mehul Gupta, CEO da SoCheers, foram três as principais limitações que impediram o ARC-AGI em determinar se um sistema é AGI de fato: o escopo da avaliação; a especificidade da tarefa; e a compreensão semelhante à humana. Em suma, O ARC-AGI não compreende fatores humanos essências, como criatividade, adaptabilidade e sentimento.
Gary Marcus, professor da New York University e CEO da Geometric Intelligence, disse que o teste em que a OpenAI o3 foi submetido não é adequado para determinar se uma IA é ou não AGI. “Fatores críticos como factualidade, princípio da composicionalidade e bom senso nem sequer são abordados”, escreveu em seu blog.
Outra ponderação de Marcus indica que resultados importantes de testes além dos realizados pela ARC não foram divulgados. “O trabalho do MIT (Massachusetts Institute of Technology) e muitos outros não foram mostrados, fazendo com que o avanço relativo ao campo parecesse muito maior do que realmente é”.
“O problema não foi a tarefa em si, ou mesmo como ela foi administrada, mas está na impressão que a OpenAI transmitiu e que deixou muitas pessoas acreditando que foi mostrado mais do que realmente foi”, diz Marcus.
A avaliação encontrou ressonância até no criador do teste ARC e engenheiro do Google, François Chollet, que afirmou que a melhor coisa teria sido apresentar dados para o “modelo básico” sem pré-treinamento, ou seja, um sistema que recebeu apenas os dados específicos do teste, sem ter aprendido previamente com outros conjuntos de dados ou tarefas relacionadas. Altman não deixou explícito se houve ou não treinamento prévio com questões do ARC-AGI. Do ponto de vista científico, testar um modelo básico sem pré-treinamento ajuda a isolar sua capacidade de generalização e raciocínio puro, o que que garante avaliação rigorosa da capacidade do modelo em resolver tarefas do ARC-AGI.
“Embora o novo modelo seja muito impressionante represente um grande marco no caminho para a AGI, não acredito que o que foi apresentado seja realmente AGI porque ainda há um bom número de tarefas muito fáceis que o o3 não consegue resolver”, diz Chollet.
Mike Knoop, organizador do ARC Challenge, avaliou que uma tarefa chave para determinar o selo AGI no OpenAI o3 não foi cumprida. O modelo não conseguiu resolver mais de 100 tarefas de quebra-cabeças visuais.
Então o que a pontuação significa?
A pontuação alta do modelo o3 acontece em um momento em que pesquisadores de IA e a indústria da tecnologia preveem um ritmo lento de progresso nesses sistemas. O avanço em IA foi guiado, nos últimos anos, pela Lei da Escalabilidade, que sugere que os modelos de IA melhoram em proporção ao aumento nos dados, parâmetros e poder computacional. A própria OpenAi é exemplo, já que o GPT-3 e o GPT-4 se beneficiaram desse princípio, e tiveram avanços notáveis com treinamento e infraestrutura.
O o3, então, representa uma mudança porque foca em eficiência e raciocínio avançado, em vez de escalar modelos. Embora a OpenAI não tenha vencido o ARC Challenge, o resultado indica que há espaço para evolução em breve, segundo François Chollet.