Qual é o melhor chatbot de IA? A resposta é mais complexa do que parece, porque depende da tarefa solicitada e da expectativa do usuário. A Folha testou como os modelos mais populares, em suas versões gratuitas, comportam-se diante das mesmas instruções.
De olho em lançamentos recentes, a reportagem testou também o Qwen 2.5 Max, da chinesa Alibaba, que se gaba ao afirmar que “supera quase todos os GPT-4o, DeepSeek-V3 e Llama-3.1-405B“.
ChatGPT, Gemini, Perplexity, DeepSeek, Claude e Microsoft Copilot completam a lista das ferramentas avaliadas.
Todos são modelos de processamento de linguagem natural capazes de entender e gerar respostas convincentes, além de executarem outras tarefas.
Os testes abaixo são apenas amostras e as respostas podem mudar de acordo com a interação do usuário e as atualizações das plataformas.
FATOS RECENTES
Um resumo do clássico entre Santos e São Paulo pela 6ª rodada do Campeonato Paulista 2025 foi pedido a todos os chatbots. As instruções foram as seguintes:
“Faça um resumo do último jogo entre Santos e São Paulo pelo Campeonato Paulista 2025. Traga informações sobre o placar, treinadores e quem fez gols. Diga onde foi o jogo e se houve alguma expulsão ou estreia de algum jogador em um dos times”.
Claude não tem dados atualizados em tempo real, com acesso à web, e não respondeu.
ChatGPT traz um resumo correto e sucinto com todas as informações solicitadas. No final, sugere link do Youtube do canal oficial do Campeonato Paulista sobre a partida.
Perplexity apresenta resumo breve com todas as informações pedidas, além de outros detalhes relacionados. Derrapa, porém, ao dizer que Gabriel Bontempo estreou no Santos nesta partida –o jogador começou no time profissional na derrota contra o Velo Club, em janeiro. Ponto positivo é mostrar com destaque links de fontes de informações, além de sugestões de vídeos.
DeepSeek (R1) faz resumo detalhado e oferece informações extras, mas comete o mesmo engano sobre a estreia de Gabriel e relata apenas um dos cartões amarelos da partida.
O resumo do Copilot destaca corretamente todas as informações solicitadas e traz links discretos das fontes. Confunde-se ao afirmar que Neymar ocupava um dos camarotes na Vila Belmiro –o jogador assistiu à partida em sua mansão, em Mangaratiba (RJ).
Gemini, em um resumo prolixo, acerta o placar, o local do jogo e aponta Guilherme como autor de dois gols santistas. Só. O que vem pela frente é uma sequência de falhas, pois erra quem anotou o gol são-paulino (Lucas Moura) e o segundo gol do Santos (Gabriel Bontempo), além de omitir a expulsão do técnico Pedro Caixinha e errar os nomes de toda a arbitragem, de todos os jogadores que levaram cartões amarelos e as escalações e treinadores de ambas as equipes.
Qwen, na mesma toada, cita “efeito Neymar” e acerta apenas o placar e o local do jogo. Comete equívocos sobre a data, quem marcou gols e os nomes dos técnicos, além de ignorar outras respostas solicitadas.
Quem foi melhor: ChatGPT
FATOS HISTÓRICOS
O pedido para as IAs foi o seguinte:
“Faça um resumo sobre o lançamento do Plano Real no Brasil. Traga informações como ano de lançamento, quem era o presidente, o ministro da fazenda e qual era a moeda vigente até então. Diga também como estava a inflação no país naquela época”.
Todos os modelos acatam as solicitações sem errar os fatos. Enquanto ChatGPT, Copilot e Perplexity trazem três parágrafos, DeepSeek, Qwen e Gemini se alongam com cronologia, tópicos sobre a equipe econômica e detalhes sobre o contexto histórico da época.
Quem foi melhor: todos vão bem.
Dica: ao designar um papel para o robô, a chance de obter uma resposta que vai ao encontro do que o usuário deseja aumenta. Exemplo: “Sou um estudante do ensino médio e você é um bom professor de economia, faça um resumo para que eu estude sobre [o assunto desejado]”
ASSUNTOS POLÍTICOS
A reportagem pediu aos chatbots que respondessem sobre as eleições presidenciais brasileiras de 2022. A instrução foi:
“Como foi a disputa presidencial no Brasil em 2022? Conte quem eram os principais candidatos e quem venceu a disputa. Especifique quando ocorreu o pleito e a que horas veio o resultado. Houve algum tipo de desconfiança ou protesto sobre por parte dos apoiadores?
Gemini é o único modelo que não aborda questões relacionadas à política: “No momento, não posso ajudar com respostas sobre eleições e figuras políticas”, diz o chatbot.
No entanto, se o assunto envolver a China, é a vez e DeepSeek e Qwen se calarem.
Todos os demais fornecem resultados semelhantes. Apenas o Copilot não menciona os ataques em 8 de janeiro de 2023 em seu resumo. Outra diferença aparece em relação ao horário de divulgação do resultado. Enquanto ChatGPT, Perplexity e Copilot citam 19h57 (horário em que, com 98,91% das urnas apuradas, Lula foi considerado eleito), Qwen, DeepSeek e Claude informam diferente.
Quem foi melhor: ChatGPT e Perplexity, mas… apesar da discrepância em relação aos horários, as IAs chinesas abastecem os resumos com mais detalhes, enquanto ChatGPT e Copilot suprem o leitor com textos mais sucintos.
Dica: em todas as pesquisas, tenha em mente que inteligências artificiais generativas cometem erros e possuem vieses. Para assuntos delicados, como política, vale redobrar o cuidado.
CRIAÇÃO DE IMAGENS
Gemini, ChatGPT, Copilot, Qwen e Claude criam imagem por meio de instruções simples em texto no próprio chat. É preciso ficar atento aos limites oferecidos nos planos gratuitos em cada ferramenta. Eis o pedido:
“Faça uma imagem de um menino em formato de Lego, com corpo amarelo e roupas brancas. Mostre o corpo inteiro dele. Ele tem cabelo encaracolado e preto, sorri e possui sardas no rosto. Estilo 3D, fundo simples”.
Veja os resultados:
Quem foi melhor: Copilot
ANÁLISE DE DOCUMENTOS
O edital do Enem 2024, disponível em um arquivo de PDF de seis páginas, foi carregado nas plataformas —exceto no Gemini, que não aceita envio de documento. Algumas perguntas acerca do conteúdo foram realizadas.
Para o Claude, o documento em questão excede o limite máximo aceitável. DeepSeek, por sua vez, retorna erro em todas as tentativas de remissão do texto.
Qwen, ChatGPT, Copilot e Perplexity têm desempenhos semelhantes, com boas soluções para as questões. Destaca-se a última ferramenta, que permite ao usuário clicar sobre temas em destaque, como as áreas de conhecimento do exame, para saber mais.
Quem foi melhor: Perplexity
FONTES DAS INFORMAÇÕES
Desta vez, a solicitação foi sucinta: “Aborde em poucas palavras o acidente envolvendo dois aviões nos EUA, em janeiro de 2025″.
Claude não fornece links para fontes porque não tenho acesso direto à internet ou a um banco de dados de referências.
Perplexity, pioneira ao mostrar as fontes nos resultados, é a que as exibe com maior destaque.
De forma mais acanhada, Copilot, DeepSeek e Qwen numeram e distribuem as fontes ao longo do texto, fazendo referência aos links originais. ChatGPT também indica fontes nas respostas por meio de discretas URLs. É comum que o modelo da OpenAI mostre uma fonte única também no final de um texto mais longo.
Gemini pode ou não apresentar links úteis para consulta ao final de um resultado. Se o usuário fizer a solicitação diretamente no prompt, o robô pode obedecer.
Ao pedir que os robôs usassem como fonte apenas a Folha, Gemini diz que o jornal não publicou nada a respeito. O que não é verdade.
As outras plataformas trazem resumos factuais sobre o acidente, mas incluem outras fontes não solicitadas. O único que respeitou o que havia sido ordenado foi o Copilot.
Quem foi melhor: Copilot e Perplexity
RECURSO POR VOZ
Fazer perguntas e dar instruções usando a voz é possível apenas no ChatGPT, no Gemini (aplicativo) e no Copilot. Há um limite de tempo de uso, por vezes não especificado, dos recursos, sobretudo nas versões gratuitas.
Há falhas em todas as conversas e o ruído do ambiente pode agravar os problemas. Frases inacabadas ou repetidas são problemas comuns. Nestes quesitos, Gemini consegue terminar frases com maior frequência, usando um assistente de voz em português e com sotaque brasileiro.
Quem foi melhor: Gemini
CONTAS MATEMÁTICAS
Um exercício de matemática extraído da prova da Fuvest de 2003 foi enviado a todos os modelos de IA. Todos acertam e mostram o passo a passo de como chegaram à resposta.
Um caminhão transporta maçãs, peras e laranjas, num total de 10.000 frutas. As frutas estão condicionadas em caixas (cada caixa só contém um tipo de fruta), sendo que cada caixa de maçãs, peras e laranjas, tem, respectivamente 50 maçãs, 60 peras e 100 laranjas e custam, respectivamente, 20, 40 e 10 reais. Se a carga do caminhão tem 140 caixas e custa 3.300 reais, calcule quantas maçãs, peras e laranjas estão sendo transportadas.
Resposta final: O caminhão está transportando 2.000 maçãs, 3.000 peras e 5.000 laranjas.
Quem foi melhor: todos são equivalentes.
A criação de tabelas a partir de dados fornecidos pelo usuário é tarefa que todos os modelos desempenham bem. Quanto mais detalhes nas instruções, melhor. O Qwen, porém, não permite o envio de imagens, somente dados estruturados em texto.
É necessário verificar o limite de envio de imagens nos demais modelos gratuitos, que varia de plataforma para plataforma e de acordo com o uso.
A criação de gráficos provenientes das tabelas, porém, só é possível no Claude.
Quem foi melhor: Claude
PLANEJAMENTO DE VIAGEM
Muita gente usa essas ferramentas para ajudar a montar roteiros de viagem, contudo, é preciso estar atento em relação às datas e aos horários de funcionamento de estabelecimentos e atrações. O teste, aqui, foi:
Planeje uma viagem de 3 dias (sexta, sábado e domingo) para São Paulo, capital. Considere que um casal e uma criança de 5 anos viajarão juntos para o destino. No sábado à noite, considere um passeio apenas para o casal. Inclua na programação pontos turísticos não óbvios, gastronomia local e atrações gratuitas.
Qwen e Perplexity sugerem um local para jantar que fecha às 16h, enquanto Copilot indica um passeio noturno em um museu que encerra as atividades às 17h.
Gemini apresenta roteiro detalhado com horários, mas não considera as distâncias —e o trânsito quase onipresente da cidade. Imagine, por exemplo, iniciar às 15h uma caminhada pelo Viaduto do Chá, no centro, e chegar às 16h ao Beco do Batman, na zona oeste, em plena sexta-feira. Só mediante teletransporte, mas isso nenhuma das sete ferramentas é capaz de fazer (ainda).
Quem foi melhor: DeepSeek e ChatGPT