A startup chinesa DeepSeek recentemente desbancou o ChatGPT como o aplicativo de inteligência artificial (IA) mais bem classificado, em parte por deslumbrar o público com uma versão gratuita da ideia mais quente em IA – um chatbot que “pensa” antes de responder a uma pergunta do usuário.
O modo “DeepThink” do aplicativo responde a todas as consultas com o texto “Pensando…”, seguido de uma sequência de atualizações que parecem o chatbot falando sozinho enquanto calcula a resposta final. O monólogo se desenrola com floreios populares como “Espere”, “Hmm” ou “Aha”.
Chatbot que “pensa” pode ser mais simpático para os usuários Foto: undefined / undefined
Os chatbots que falam sozinhos antes de responder estão agora se espalhando à medida que os rivais americanos correm para superar o momento viral da DeepSeek. Esse estilo de assistente de IA pode ser mais preciso em algumas tarefas, mas também imita os seres humanos de uma forma que pode esconder suas limitações.
A técnica da conversa interna, às vezes apelidada de “raciocínio”, tornou-se moda nos principais laboratórios de inteligência artificial no final do ano passado, depois que a OpenAI e o Google lançaram ferramentas de IA que obtiveram notas mais altas em testes de matemática e codificação por meio de monólogos sobre os problemas, passo a passo.
No início, esse novo tipo de assistente não estava disponível para as massas: A OpenAI lançou um sistema chamado o1 em dezembro que custava US$ 200 por mês e mantinha seu funcionamento interno em segredo. Quando a DeepSeek lançou seu aplicativo “thinking” gratuitamente e também compartilhou o modelo de raciocínio R1 por trás dele, houve um frenesi de desenvolvedores.
“As pessoas estão animadas para usar essa nova abordagem em todas as coisas possíveis”, disse Nathan Lambert, pesquisador de IA do Allen Institute for AI, uma organização sem fins lucrativos.
Nas duas semanas desde que a ascensão da DeepSeek derrubou as ações de tecnologia dos EUA, a OpenAI disponibilizou parte de sua tecnologia de raciocínio gratuitamente no ChatGPT e lançou uma nova ferramenta baseada nela, chamada Deep Research, que pesquisa na web para compilar relatórios.
Na última semana, o Google disponibilizou seu produto concorrente, o Gemini 2.0 Flash Thinking Experimental, para os consumidores pela primeira vez, gratuitamente, por meio de seu aplicativo de IA Gemini.
No mesmo dia, a divisão de computação em nuvem da Amazon disse que estava apostando no “raciocínio automatizado” para criar confiança com os usuários. No dia seguinte, o ChatGPT da OpenAI começou a mostrar aos usuários traduções refinadas de suas “cadeias de pensamento” brutas, de forma semelhante à DeepSeek.
Em breve, as empresas americanas gastarão “centenas de milhões a bilhões” de dólares tentando turbinar essa abordagem de raciocínio de IA, previu Dario Amodei, CEO da Anthropic, fabricante do chatbot Claude, em um ensaio sobre as implicações da estreia da DeepSeek na concorrência entre EUA e China.
A enxurrada de investimentos e atividades aumentou as esperanças do setor de tecnologia de criar um software tão capaz e adaptável quanto os seres humanos, a partir de uma tática comprovada pela primeira vez em problemas de matemática e codificação. “Agora estamos confiantes de que sabemos como criar AGI”, ou inteligência artificial geral, escreveu Sam Altman, da OpenAI, em uma publicação de blog no mês passado.
A vice-presidente do Google para o aplicativo Gemini, Sissie Hsiao, disse em um comunicado que os modelos de raciocínio representam uma mudança de paradigma. “Eles desmistificam o funcionamento da IA generativa, tornando-a mais compreensível e confiável ao mostrar seus ‘pensamentos’”, além de ajudar em tarefas mais complexas, disse ela.
“À medida que apresentamos os modelos de raciocínio a mais pessoas, queremos desenvolver uma compreensão mais profunda de seus recursos e de como eles funcionam” para criar produtos melhores, disse o porta-voz da OpenAI, Niko Felix, em um comunicado. “Os usuários nos disseram que entender como o modelo raciocina por meio de uma resposta não só apoia uma tomada de decisão mais informada, mas também ajuda a criar confiança em suas respostas.”
Batendo em uma parede
A obsessão do Vale do Silício com o raciocínio começou com a busca pelo próximo salto em modelos de linguagem, a tecnologia que alimenta o ChatGPT.
A atenção conquistada pela OpenAI ajudou anteriormente a reunir o setor de tecnologia em torno de um paradigma simples para máquinas mais inteligentes: injetar mais dados e poder de computação em modelos de IA cada vez maiores para torná-los mais capazes.
Mas, nos últimos anos, essa fórmula confiável começou a se estabilizar. Os modelos de linguagem não estavam mais melhorando tão rapidamente nos benchmarks do setor para matemática, ciências e lógica. E a maioria dos dados prontamente disponíveis na internet já havia sido extraída.
Em resposta, os laboratórios de empresas como Google, OpenAI e Anthropic começaram a se concentrar em obter melhor desempenho dos modelos de IA que já haviam criado.
Um truque promissor envolveu a orientação de modelos de linguagem para dividir um problema em etapas chamadas “cadeias de pensamento” em vez de responder em uma única tentativa – parte da técnica de raciocínio usada pela DeepSeek e outros. Isso força um modelo de IA a gastar mais tempo e poder de processamento para responder a uma consulta.
A estratégia valeu a pena, especialmente quando combinada com uma técnica chamada aprendizado por reforço, que permitiu que os computadores dominassem jogos como o Go. Ela envolve a orientação de como os sistemas de IA se comportam, recompensando a resposta correta em várias instâncias de tentativa e erro.
Essa estrutura se presta a domínios como matemática, lógica e codificação, em que os computadores podem verificar se a resposta final está correta. Ainda assim, as empresas não dispunham de dados que mostrassem como os humanos raciocinavam para resolver os problemas.
No início, elas tentaram contratar prestadores de serviços humanos para anotar as etapas que seguiam ao responder às perguntas, um método que se mostrou lento e caro.
Mas, à medida que a tecnologia de IA foi aprimorada, ela pôde gerar, de forma confiável, vários exemplos que imitavam as “cadeias de pensamento” escritas por humanos. Gradualmente, os pesquisadores conseguiram retirar as pessoas do circuito.
Em um relatório técnico publicado em janeiro, a DeepSeek afirmou que um de seus primeiros modelos de raciocínio, chamado R1-Zero, começou a mostrar longas “cadeias de pensamento” apenas com o aumento do número de rodadas de tentativa e erro realizadas pelos pesquisadores, sem nenhum dado especialmente criado.
“Na verdade, você está criando uma área de teste onde o modelo muda seu comportamento por conta própria”, disse Lambert.
Alguns observadores argumentam que o entusiasmo com essa nova direção da IA ofuscou a discussão sobre seus limites.
Ainda é uma questão em aberto se as “cadeias de pensamento” refletem como um sistema de IA realmente processa as informações, disse Subbarao Kambhampati, professor de ciência da computação da Universidade Estadual do Arizona.
Sua pesquisa recente sugere que as habilidades de raciocínio dos modelos de IA podem ser prejudicadas se forem desafiadas em testes de aplicações do mundo real, como planejamento e programação.
Além disso, segundo ele, os laboratórios que desenvolvem esses modelos tendem a se concentrar na precisão das respostas finais, e não no fato de o raciocínio ser sólido – uma qualidade difícil de medir.
Por exemplo, o documento técnico da DeepSeek para o R1 observou que uma versão anterior de seu modelo forneceu respostas finais mais precisas quando suas cadeias de pensamento misturaram textos em chinês e inglês. No entanto, seus pesquisadores optaram por um modelo que falava sozinho em inglês porque era mais agradável para os usuários.
Kambhampati argumenta que as empresas devem permitir que os chatbots “murmurem para si mesmos” da maneira que produzir as respostas mais precisas, em vez de tentar tornar suas “cadeias de pensamento” mais agradáveis aos humanos. “É melhor se livrar dessa antropomorfização. Isso não importa”, disse ele.
O setor de IA parece estar indo em uma direção diferente. Os modelos de raciocínio amplamente lançados desde o choque da DeepSeek do Vale do Silício incluem recursos de design que, como os do aplicativo chinês, incentivam os consumidores a acreditar que os “pensamentos” do software mostram que ele raciocina como um ser humano.
Na página inicial do ChatGPT, um botão do modo “Reason” aparece com destaque na caixa de bate-papo. Em uma publicação no X, Altman chamou de “cadeia de pensamento” um recurso em que a IA “mostra seu pensamento”.
“Para um usuário comum, é como se tivesse uma visão de como um algoritmo funciona”, disse Sara Hooker, chefe do laboratório de pesquisa Cohere for AI. Mas é uma forma de aumentar o desempenho, não de dar uma olhada nos bastidores, disse ela.
Ethan Mollick, professor que estuda IA na Wharton School da Universidade da Pensilvânia, disse que ver o suposto monólogo interno de um chatbot pode despertar empatia.
Em comparação com o tom mais suave do ChatGPT, as respostas do R1 da DeepSeek pareciam “neuroticamente amigáveis e desesperadas para agradar você”, disse ele.
“Estamos vendo esse mundo estranho em que a ciência da computação mais pesada está se alinhando com o marketing – não está claro se até mesmo os criadores sabem qual é qual.”
Este conteúdo foi traduzido com o auxílio de ferramentas de Inteligência Artificial e revisado por nossa equipe editorial. Saiba mais em nossa Política de IA.