Há poucos dias, a empresa OpenAI, responsável pelo ChatGPt, lançou o seu modelo “o1“, que segundo os seus criadores se distingue por ser dotado de uma certa “capacidade de raciocínio”: uma afirmação impressionante, sem dúvida, mas bastante abstrata.
No entanto, dizer que o1 demonstrou desempenho superior a qualquer outro modelo de IA existente em testes de QI, depois de responder às questões do exame Mensa Noruega, é algo muito mais quantificável.
Tanto é verdade que o teste Mensa, originalmente concebido para detectar pessoas superdotadas, resultou num QI de 120, o que o coloca acima da maioria dos seres humanos.
Resumindo: a nova IA da OpenAI não está apenas alcançando habilidades cognitivas semelhantes às humanas, mas também começando a superá-las em tarefas específicas de raciocínio e reconhecimento de padrões.
Com previsões anteriores baseadas no progresso de modelos, esperava-se que as IAs começassem a se aproximar de um QI de 120 em “alguns meses” – no entanto, este avanço com o1 sugere que a tecnologia está bastante acelerada. Se as tendências atuais continuarem, é provável que vejamos IAs com QI acima de 140 antes de 2026.
A ascensão de o1 e o impacto de seu raciocínio
O gráfico acima mostra como o o1 superou significativamente outros modelos de IA (como Claude-3 Opus e GPT-4) na escala de QI. Por exemplo, Claude-3, embora tenha mostrado um progresso constante nos últimos meses, mal conseguiu igualar a média humana em alguns destes testes, “apenas” pontuando um QI próximo de 100.
Ao contrário das iterações anteriores de IA, o1 demonstrou raciocínio lógico avançado em questões de padrões complexos, algo que pode até ser difícil para humanos. Em uma das questões mais complexas do teste, o modelo explicou detalhadamente o padrão que você identificou em uma grade visual e chegou à conclusão correta.
A IA foi capaz de “trapacear”?
Um argumento comum contra esses tipos de testes é que a IA poderia responder corretamente pela simples razão de já ter sido treinada com as questões que lhe foram apresentadas. No entanto, os desenvolvedores do teste afirmam que este não é o caso, uma vez que o teste submetido ao o1 continha várias perguntas inéditas.
Texto traduzido do site parceiro Genbeta*
Inscreva-se no canal do IGN Brasil no Youtube e visite as nossas páginas no Facebook, Twitter, Instagram e Twitch! | Siga Matheus Bianezzi no Twitter e Instagram.