Sem ‘borogodó’, modelos de IA são reprovados no teste de brasilidade

joabe antonio de oliveira
agosto 25, 2024

Compartilhe esta postagem

Receba nosso boletim

Desde o início do mês disponível no país, o Claude, robô de inteligência artificial da Anthropic, não identifica símbolos populares da religiosidade brasileira, como imagens de orixás ou de Nossa Senhora Aparecida, a padroeira do Brasil. O ChatGPT não sabe que catenga é uma forma de falar lagartixa em áreas do Nordeste. Para o Gemini, do Google, pastel de berbigão, iguaria do Sul, é “exclusividade” da Baixada Santista, em São Paulo.

Chatbot: Character.AI, a nova febre entre os apps de inteligência artificial
Epidemia de solidão: Conheça meus amigos criados por inteligência artificial e veja qual será o futuro da amizade

Os principais robôs de inteligência artificial generativa disponíveis no país foram treinados com bases de dados gigantescas e rodam com os modelos de linguagem (LLMs), que são os “cérebros” por trás das IAs, mais poderosos do mundo. Mas indagados sobre questões da cultura brasileira, os chatbots não assimilam o “borogodó” local e escorregam nas respostas, mostra teste do GLOBO.

Mesmo quando não têm a informação correta, as IAs geralmente respondem. Raramente admitem não saber.

O ChatGPT, que desde maio tem versão gratuita que processa informações visuais, parece ter sido “abrasileirado” para identificar figuras como Ogum e Iansã (orixás cultuados no Candomblé e Umbanda). Mas o robô escorrega ao explicar o significado de expressões regionais, como carapanã, usado na Região Norte para mosquito, e responde que se trata de uma árvore e de um peixe. Indagado se está certo, pede desculpas e erra de novo: diz tratar-se de uma serpente.

O jogo dos seis erros da inteligência artificial

O que foi informado ao sistema: imagem hiper-realista retrata um homem tirando uma selfie com os amigos em um cinema lotado. As pessoas assistem a uma comédia e riem muito — Foto: Imagem gerada por Midjourney

No cinema. A figura que segura o celular tem as mãos deformadas — Foto: Imagem gerada por IA/Midjourney

Harmonia: Um maestro conduz uma orquestra, rege com energia, a câmera está de costas para o maestro, os músicos estão de frente para a câmera, ele toca a Nona Sinfonia de Beethoven - Foto: imagem gerada por IA/Midjourney

4 de 12
Regência. A imagem exibe mão direita do maestro com dedo alongado. E a batuta se assemelha a um arco de violino — Foto: Imagem gerada por IA/Midjourney

O que foi informado ao sistema de inteligência artificial: imagem exibe uma pessoa com os braços cruzados, não foi solicitado que aparecesse o rosto - foto: imagem criada por IA/Midjourney — 5 de 12
O que foi informado ao sistema de inteligência artificial: imagem exibe uma pessoa com os braços cruzados, não foi solicitado que aparecesse o rosto – foto: imagem criada por IA/Midjourney

6 de 12
Em excesso. Imagem gerada por inteligência artificial mostra uma pessoa com mais um braço — Foto: Imagem gerada por IA/Midjourney

7 de 12
Alegria: Uma criança sorri imensamente feliz e até grita de boca aberta de tanta felicidade quando recebe um presente. Esta imagem serve como uma prova do poder da felicidade — Foto: Imagem gerada por IA/Midjourney

8 de 12
Sorriso assustador. O dente da criança que recebe o presente se confunde com a gengiva — Foto: Imagem gerada por IA/Midjourney

9 de 12
Dueto inusitado: Produção exibe a cantora brasileira Anitta cantando com o líder do Coldplay, Crhis Martin, dançando e cantando no palco, com luz de neon — Foto: Imagem gerada por IA/Midjourney

10 de 12
Atenção ao vocalista. A mão direita do cantor Chris Martin aparece com seis dedos — Foto: Imagem gerada por IA/Midjourney

11 de 12
Apreciando a vista. Um grupo de capivaras com a cidade do Rio de Janeiro ao fundo, em um dia de garoa, imagem no estilo de publicações voltadas para a vida animal — Foto: Imagem gerada por IA/Midjourney

12 de 12
É esse animal mesmo? Capivara aparece de rabo e mais parece um rato — Foto: Imagem gerada por IA/Midjourney

Os erros da IA

O Gemini, ao receber solicitação sobre a origem de pratos populares de determinadas regiões, acerta sobre a unha de caranguejo, mas erra a resposta sobre onde o fígado com jiló é popular (diz que é no Rio, e não em Belo Horizonte).

O jornalista especializado em gastronomia Rusty Marcellini, comentarista da CBN, que participou dos testes do GLOBO, diz que o conhecimento das IAs sobre culinária regional é inconsistente:

Preocupação: Especialistas apontam que inteligência artificial já é capaz de enganar humanos e isso é ‘um problema’

— Um leigo completo que ler as respostas vai acreditar que cartola (sobremesa que é patrimônio imaterial de Pernambuco) é do Rio de Janeiro e que jerimum é do interior de São Paulo, o que não são.

Sobre os toques de samba mais populares no Brasil, as IAs são capazes de elencá-los, como o samba de roda e o samba-canção. Mas falham ao explicar o ritmo, avalia o sambista e sociólogo Tadeu Kaçula:

— (Os chatbots) não respondem com elementos fundamentais para entendermos a complexidade dos sambas.

Ao avaliar o desempenho de IAs em perguntas sobre a origem de expressões populares, o professor de língua portuguesa Pasquale Cipro Neto diz ter a impressão de que os sistemas já incorporaram arquivos de dicionários.

Entenda: Quando o robô é treinado por robôs, a inteligência artificial entra em colapso

Mas pondera que os ditados “analisados” pelos chatbots nem sempre têm nexo, como tentam fazer parecer as IAs, que buscaram explicações para o significado de expressões como “a porca torce rabo”.

— As expressões populares nem sempre têm muita lógica. Os ditados são muito presos às culturas locais — diz Pasquale.

Torcedor do Juventus, time tradicional de São Paulo fundado há 100 anos, o professor reclama que as pesquisas com a IA sobre o clube da Mooca já geraram “patifarias”. O GLOBO fez perguntas aos chats sobre o clube e todos deram respostas erradas. Citam que Emerson Leão iniciou a carreira lá e que Zé Maria defendeu o time “por anos” (os dois nunca passaram pelo Juventus).

Gemini, Claude e ChatGPT erraram (em menor ou maior grau) perguntas sobre idiomas indígenas. A análise do resultado foi feita pelo linguista e indigenista Wilmar D’Angelis, professor do Instituto de Estudos da Linguagem da Unicamp.

Ele nota que as IAs confundem línguas isoladas com ameaçadas (caso do Tikuna) e idiomas mortos com línguas vivas (como o Tupi). Erram a localização de povos (como os Xavantes), e misturam o que é dialeto (a exemplo do Mbyá-Guarani) com o que é idioma.

— Parece que não há critérios para como as informações que coletam são utilizadas. Se uma pessoa tivesse me enviado esses resultados, diria que é péssimo linguista ou leigo.

Os amigos criados por inteligência artificial

O pesquisador Anderson da Silva Soares, do Instituto de Informática da Universidade Federal de Goiás (UFG), lembra que os robôs de IA são treinados principalmente com informações da língua inglesa.

Todos os sistemas de IA admitem que estão sujeitos a erros. ChatGPT, Claude e Gemini trazem o alerta de que podem cometer erros.

Criar uma inteligência artificial “mais brasileira” é uma das missões da Maritaca AI, pioneira no desenvolvimento de um grande modelo de linguagem que é “nativo”. A startup foi fundada por pesquisadores da Unicamp em 2022, dois meses antes do ChatGPT ser lançado e impulsionar a corrida pela IA generativa.

— O propósito sempre foi esse, de fazer IAs que fossem especializadas no Brasil. Isso não quer dizer só que ela vai saber bem português, mas sim de treiná-la com dados relevantes para o ambiente que ela vai atuar — conta Rodrigo Nogueira, fundador e CEO da Maritaca IA, doutor em Ciência da Computação pela New York University (NYU).

Delírio robótico: Cientistas criam método para detectar ‘alucinação’ de inteligência artificial

O grande desafio de criar IAs brasileiras é o custo de desenvolver os LLMS (grandes modelos de linguagem), que são os motores que fazem rodar os chatbots como o Gemini ou o Claude. O robô criado pela Maritaca, que pode interagir com os usuários, é chamado de Maritalk. Já o LLM por trás é o Sabiá.

O projeto foi viabilizado a partir de uma parceria da startup com o Google, que cedeu seus supercomputadores para treinar o modelo. Segundo Rodrigo, o custo de realizar o processo seria de R$ 20 milhões. O modelo também é disponibilizado para empresas, que podem personalizá-los para usos próprios.

Até 2026: Inteligência artificial exigirá energia de ‘dois Brasis’. Veja por que

Desenvolvida em parceria com a Oracle e a NVIDIA, a Amazônia IA é outra iniciativa que busca gerar “abrasileirar” o cenário da inteligência artificial. Criada pela startup Widelabs, o sistema foi treinado, entre outras fontes, com bancos de dados que incluem pesquisas e teses científicas, além de bancos públicos brasileiros.

A empresa vai lançar em setembro um artigo científico para abrir as informações técnicas do modelo, e abrir a IA para pode ser aplicada em negócios.

— Desenvolver a IA localmente é também falar de soberania nacional, de não depender de tecnologias estrangeiras. É também sobre democratizar acesso, para soluções locais — diz Nelson Leoni, CEO da Widelabs.

Vídeo generativo: OpenAI revela sistema de inteligência artificial que transforma textos em filmes realistas. Veja exemplos

O Plano Nacional de Inteligência Artificial, lançado no mês passado pelo governo, prevê a compra de cinco supercomputadores para atender a demanda na área. O investimento previsto nos próximos quatro anos é de R$ 23 bilhões, com as maiores fatias direcionadas para o eixo de inovação empresarial (59,8%) e infraestrutura (25,1%).

Para Rodrigo, além de acesso a capacidade computacional, uma política de acesso a dados é fundamental para o país avançar no desenvolvimento de IAs. O pesquisador da UFG, Anderson Soares, destaca ainda que é necessário ter uma política sólida de formação de obra, mas que o plano é positivo por estabelecer metas e financiamento.

Expressões populares — Foto: Editoria de arte

Perguntamos o significado de palavras regionais

ChatGPT: Não sabe que lagartixa pode ser chamada de catenga, nem o que significa caparanã (também conhecido como pernilongo ou muriçoca). Sabe explicar que desenxabido é alguém “sem graça”.
Claude: Errou o significado de todas as expressões testadas, com exceção de desenxabido. Diz que o caparanã pode ser “uma lagarta ou inseto”.
Gemini: Afirma que catenga é uma dança e que abilolado (que seria sem juízo, amalucado) é algo “que tem lóbulos”. Acerta em desenxabido.

Religiões de matriz africana — Foto: Editoria de arte

Testamos imagens de Orixás e de Nossa Senhora Aparecida

ChatGPT: Das quatro imagens, soube identificar duas: Ogum e Iansã, e explicar o significado. Reconheceu uma estatueta de Nossa Senhora Aparecida, definida como “padroeira do Brasil”.
Claude: Não soube identificar imagens de orixá, definidos como “objetos decorativos ou religiosos”. Reconheceu Nossa Senhora como “Mãe de Jesus”, sem contextualizar.
Gemini: Trocou Nanã Buruquê por Oxalá nas imagens de orixás. Acertou ao identificar Nossa Senhora Aparecida como “uma das santas mais populares do Brasil”.

Cultura indígena — Foto: Editoria de arte

Perguntamos os idiomas indígenas falados e quais podem ser extintos

ChatGPT: É o que mais acerta. A lista da 1ª questão, porém, ignora a Kaingang, o 3º idioma indígena mais falado. Entre as que podem ser extintas, cita casos em risco, mas não os mais críticos.
Claude: Errou em todos os casos na primeira pergunta, com inclusão de línguas mortas (como Tupi) ou em risco (como Kokama). Na segunda parte, citou línguas vulneráveis, mas não que correm risco de extinção.
Gemini: Acerta ao listar línguas mais faladas (Tikuna, Guarani, Kaingang, Xavante e Yanomami). Sobre idiomas em extinção, relaciona línguas isoladas com ameaçadas.

Comidas regionais — Foto: Editoria de arte

Perguntamos em quais cidades os pratos típicos são conhecidos

ChatGPT: Acerta na maior parte, mas erra ao dizer que fígado com jiló é conhecido no Rio ( é em Minas). Também diz que a sobremesa cartola é feita com queijo coalho (geralmente é feita com queijo manteiga).
Claude: Acerta na maior parte, mas erra ao dizer que fígado com jiló é típico da culinária nordestina. Indica que cartola é originária do Rio (a sobremesa é patrimônio cultural imaterial de Pernambuco).
Gemini: Na 1ª vez, só incluiu cidades de São Paulo. No comando para considerar todo o país, errou (disse que o pastel de berbigão, de Santa Catarina, é da Baixada Santista).

Source link