O Google lançou nesta sexta-feira (dia 20/12) o modelo de inteligência artificial Gemini 2.0 Flash Thinking. Ainda em fase experimental, ele é apresentado como o melhor para “compreensão multimodal, raciocínio e geração de códigos”, com capacidade para “raciocinar sobre os problemas mais complexos” de programação, matemática e física.
O Gemini 2.0 Flash Thinking demora mais que seus concorrentes especializados em linguagem na hora de responder um prompt, podendo ficar alguns segundos ou até minutos “pensando”. O modelo considera pedidos relacionados e “explica” a linha de raciocínio. Depois disso, resume o método adotado e apresenta a resposta que ele avalia como a mais precisa.
It’s still an early version, but check out how the model handles a challenging puzzle involving both visual and textual clues: (2/3) pic.twitter.com/JltHeK7Fo7
— Logan Kilpatrick (@OfficialLoganK) December 19, 2024
Parece bonito na teoria, mas nem sempre isso funciona na prática. O TechCrunch perguntou pra IA quantas letras R existem na palavra “strawberry”. O Gemini 2.0 Flash Thinking pensou, explicou e… errou, dizendo que há duas letras R.
Por enquanto, o Gemini 2.0 Flash Thinking está disponível apenas no Google AI Studio, plataforma da empresa para prototipagem.
Raciocínio ainda é um desafio para IA
A pergunta de quantos R há em “strawberry” se tornou famosa há alguns meses, depois que usuários perceberam que quase nenhum chatbot de IA é capaz de acertar a resposta na primeira tentativa.
Até o momento, as soluções mais populares de IA generativa — como ChatGPT, Copilot e o próprio Gemini, do Google — têm dificuldades quando o usuário faz pedidos que exigem raciocínios um pouco mais complexos. Descrever problemas matemáticos, por exemplo, nem sempre traz a solução certa.
Isso acontece porque, por trás dessas ferramentas, estão modelos de linguagem em larga escala (LLMs, na sigla em inglês). Eles são bons para decodificar pedidos e juntar palavras para formar um texto coeso, mas não têm muita capacidade de articular números e lógica.
Ou, como resume o MIT News, os LLMs são bons para recitar respostas semelhantes às vistas nos textos em que foram treinados, mas muito limitados ao se deparar com novos cenários.
Um estudo deixa isso bem claro: o ChatGPT se saiu muito pior quando precisa resolver problemas de código que apareceram na plataforma de testes LeetCode após 2021. Uma possível explicação para isso está no treinamento do GPT-3.5, que usou dados coletados até 2021 — ele só estaria resolvendo os problemas que conhece.
Aos poucos, as empresas tentam mudar este cenário. A OpenAI apresentou, há alguns meses, o modelo o1, que promete raciocínio lógico aprimorado.
Segundo a empresa, o o1 “pensa” por mais tempo nas questões antes de respondê-las, testando estratégias e encontrando erros nas hipóteses. Com isso, ele foi capaz de acertar 83% das questões de um teste qualificatório para a Olimpíada Internacional de Matemática.
Com informações: TechCrunch, Ars Technica