A inteligência artificial pode nos mostrar como as pessoas aprendem idiomas?

A inteligência artificial pode nos mostrar como as pessoas aprendem idiomas?

Compartilhe esta postagem

Índice do Conteúdo

Receba nosso boletim

Novos contatos

nossa newsletter

Aprender um idioma não deve ser assim tão difícil: todos os bebês do mundo conseguem fazer isso em poucos anos. Entender como o processo funciona já é outra história. Os linguistas criaram teorias elaboradas para explicá-lo, mas os recentes avanços no aprendizado de máquina acrescentaram novo aspecto.

Quando os cientistas da computação começaram a criar os modelos de linguagem que alimentam os chatbots modernos, como o ChatGPT, eles deixaram de lado décadas de pesquisa em Linguística – e parece que a aposta valeu a pena. Mas será que suas criações estão realmente aprendendo?

Certas regras gramaticais nunca aparecem nos idiomas conhecidos. Ao construir linguagens artificiais com essas regras, linguistas podem usar redes neurais para explorar como as pessoas aprendem.  Foto: Samuel Velasco/Quanta Magazine

“Mesmo que façam algo parecido com o que um ser humano faz, talvez estejam fazendo isso por motivos muito diferentes”, disse Tal Linzen, linguista computacional da Universidade de Nova York.

Não é só uma questão de definições. Se os modelos de linguagem realmente estão aprendendo linguagem, os pesquisadores podem precisar de novas teorias para explicar como fazem isso. Mas se os modelos estiverem fazendo algo mais superficial, talvez a aprendizagem de máquina não tenha nenhum insight a oferecer à linguística.

Noam Chomsky, um titã do campo da linguística, defendeu publicamente esta última visão. Em artigo contundente de 2023 no New York Times, ele e dois coautores apresentaram muitos argumentos contra os modelos de linguagem, entre eles um que, a princípio, parece contraditório: os modelos de linguagem são irrelevantes para a linguística porque aprendem muito bem.

Mais especificamente, os autores afirmaram que os modelos conseguem dominar idiomas “impossíveis” – aqueles regidos por regras diferentes das de qualquer idioma humano conhecido – com a mesma facilidade que dominam os possíveis.

Recentemente, cinco linguistas computacionais testaram a afirmação de Chomsky. Eles modificaram um banco de dados de textos em inglês para gerar uma dúzia de idiomas impossíveis e descobriram que os modelos de linguagem tinham mais dificuldade para aprender esses idiomas do que o inglês comum. Seu artigo, intitulado Mission: Impossible Language Models, recebeu o prêmio de melhor artigo na conferência da Associação de Linguística Computacional de 2024.

“É um artigo excelente”, disse Adele Goldberg, linguista da Universidade de Princeton. “É absolutamente oportuno e importante”. Os resultados sugerem que os modelos de linguagem podem ser ferramentas úteis para os pesquisadores que buscam entender os balbucios dos bebês.

Em 2023, Noam Chomsky afirmou que as redes neurais podem aprender línguas “impossíveis” tão bem quanto línguas reais, tornando-as irrelevantes para o estudo da linguística. Foto: Miroslav Dakov/Alamy Stock Photo

Barreiras linguísticas

Na primeira metade do século 20, a maioria dos linguistas estava preocupada em catalogar os idiomas do mundo. No fim da década de 1950, Chomsky liderou uma abordagem alternativa. Ele se baseou em ideias da ciência da computação teórica e da lógica matemática em uma tentativa ambiciosa de descobrir a estrutura universal subjacente a todos os idiomas.

Chomsky argumentava que os seres humanos devem ter um mecanismo mental inato dedicado especificamente ao processamento da linguagem. Isso explicaria muitos dos grandes mistérios da linguística, inclusive a observação de que algumas regras gramaticais simples nunca aparecem em nenhum idioma conhecido.

Se o aprendizado da linguagem funcionasse da mesma forma que outros tipos de aprendizado, argumentou Chomsky, não favoreceria algumas regras gramaticais em detrimento de outras. Mas, se a linguagem fosse de fato especial, é exatamente o que se esperaria: qualquer sistema especializado de processamento de linguagem necessariamente predisporia os humanos a determinados idiomas, tornando outros impossíveis.

“Não faz sentido dizer que os seres humanos são programados para aprender certas coisas sem dizer que eles também são programados para não aprender outras coisas”, disse Tim Hunter, linguista da Universidade da Califórnia, em Los Angeles.

A abordagem de Chomsky logo se tornou a linha dominante da pesquisa linguística teórica. E permaneceu assim por meio século. Mas aí veio a revolução do aprendizado de máquina.

A ascensão das máquinas

Ilustração. Foto: Quanta Magazine

Os modelos de linguagem se baseiam em estruturas matemáticas chamadas redes neurais, que processam dados de acordo com as conexões entre os neurônios que as constituem. A força de cada conexão é quantificada por um número, chamado de peso. Para criar um modelo de linguagem, os pesquisadores primeiro escolhem um tipo específico de rede neural e, em seguida, atribuem pesos às conexões, aleatoriamente.

Como resultado, o modelo de linguagem emite, em um primeiro momento, palavras sem sentido. Com o tempo, os pesquisadores vão treinando o modelo para prever, uma palavra de cada vez, como as frases continuam. Eles fazem isso alimentando o modelo com imensas quantidades de texto.

Cada vez que o modelo vê um bloco de texto, ele faz uma previsão da próxima palavra, compara esse resultado com o texto real e ajusta as conexões entre os neurônios para melhorar suas previsões. Depois de um número suficiente de pequenos ajustes, ele aprende a gerar frases assustadoramente fluentes.

Os modelos de linguagem e os seres humanos diferem em aspectos óbvios. Para citar apenas um exemplo, os modelos de última geração precisam ser treinados com trilhões de palavras, muito mais do que qualquer ser humano verá ao longo de uma vida inteira. Mesmo assim, os modelos de linguagem podem fornecer um novo caso de teste para o aprendizado de linguagem – um caso que contorna as restrições éticas dos experimentos com bebês humanos.

“Não existe um modelo animal de linguagem”, disse Isabel Papadimitriou, linguista computacional da Universidade de Harvard e coautora do novo artigo. “Os modelos de linguagem são a primeira coisa que podemos experimentar de forma intervencionista”.

O fato de os modelos de linguagem funcionarem, para começo de conversa, é prova de que algo parecido com o aprendizado de linguagem pode acontecer sem nenhum dos mecanismos especializados propostos por Chomsky. Os sistemas baseados em redes neurais foram extremamente bem-sucedidos em muitas tarefas que não têm relação com o processamento de linguagem, e seu modo de treinamento ignora tudo o que os linguistas aprenderam sobre a intrincada estrutura das frases.

“Eles só dizem: ‘Já vi essas palavras, o que vem a seguir?’, que é um jeito muito linear de pensar a linguagem”, disse Jeff Mitchell, linguista computacional da Universidade de Sussex.

Em 2020, Jeff Mitchell estudou quão bem um tipo de rede neural poderia aprender linguagens impossíveis. Foto: Stuart Robinson

Em 2020, Mitchell e Jeffrey Bowers, psicólogo da Universidade de Bristol, decidiram estudar como a forma de aprendizado incomum dos modelos de linguagem afetaria sua capacidade de dominar idiomas impossíveis. Inventar um novo idioma do zero introduziria muitas variáveis não controladas: se o modelo fosse melhor ou pior no aprendizado da linguagem artificial, seria difícil identificar o motivo. Em vez disso, Mitchell e Bowers desenvolveram um controle para seu experimento manipulando um conjunto de textos em inglês de diferentes maneiras para criar três idiomas artificiais exclusivos, regidos por regras bizarras. Por exemplo: para criar um dos idiomas, eles dividiram cada frase em duas em um ponto aleatório e inverteram a ordem das palavras da segunda parte.

Mitchell e Bowers começaram com quatro cópias idênticas de um modelo de linguagem não treinado. Em seguida, treinaram cada uma delas com um conjunto de dados diferente – os três idiomas impossíveis e o inglês não modificado. Por fim, deram a cada modelo um teste de gramática envolvendo novas frases do idioma em que tinha sido treinado.

Os modelos treinados em idiomas impossíveis não se intimidaram com a gramática complicada. E foram quase tão precisos quanto o modelo treinado em inglês.

Ao que parecia, os modelos de linguagem conseguiam fazer o impossível. Chomsky e seus coautores citaram esses resultados em seu artigo de 2023, argumentando que os modelos de linguagem eram inerentemente incapazes de distinguir entre as linguagens possíveis e até mesmo as mais impossíveis. Então era isso. Caso encerrado, certo?

Ilustração. Foto: Quanta Magazine

A trama se complica

Julie Kallini não tinha tanta certeza. Era agosto de 2023 e ela tinha acabado de começar a pós-graduação em ciência da computação na Universidade de Stanford. As críticas de Chomsky aos modelos de linguagem eram mencionadas com frequência nas conversas informais entre seus colegas. Mas, quando Kallini pesquisou a bibliografia, percebeu que não havia nenhum trabalho empírico sobre linguagens impossíveis desde o artigo de Mitchell e Bowers, três anos antes. Ela achou o artigo fascinante, mas pensou que a afirmação generalizante de Chomsky exigia mais evidências: deveria se aplicar a todos os modelos de linguagem, mas Mitchell e Bowers haviam testado apenas um tipo mais antigo de rede neural que é menos popular nos dias de hoje. Para Kallini, a missão era óbvia: testar a afirmação de Chomsky com modelos modernos.

Kallini se reuniu com seu orientador, Christopher Potts, e propôs um estudo minucioso da aquisição de linguagem impossível pelas chamadas redes transformadoras, que estão nos principais modelos de linguagem atuais. De início, Potts achou que o projeto parecia ambicioso demais para o primeiro trabalho de Kallini como estudante de pós-graduação, mas ela o convenceu de que valia a pena seguir em frente.

“Julie foi bastante implacável”, disse ele.

Julie Kallini (à esquerda) e Christopher Potts estudaram o aprendizado impossível de línguas com redes neurais modernas. Foto: Dilara Soylu

Kallini e Potts concordaram que ela se encarregaria do treinamento dos modelos. Mas, primeiro, eles tiveram de decidir quais modelos específicos testar e quais idiomas estudar. Para isso, contaram com a ajuda de Papadimitriou e de dois outros linguistas computacionais: Richard Futrell, da Universidade da Califórnia, em Irvine, e Kyle Mahowald, da Universidade do Texas, em Austin. A equipe decidiu usar redes transformadoras relativamente pequenas, modeladas com base no GPT-2, um antecessor de 2019 do modelo de linguagem que alimenta o ChatGPT. As redes menores precisam de menos dados de treinamento, então são um pouco mais parecidas com os humanos – quem sabe elas também se assemelhassem aos humanos ao favorecer os idiomas possíveis em vez dos impossíveis?

Kallini logo descobriu que nem todo mundo pensava assim. Seus colegas do departamento de ciência da computação de Stanford não eram céticos em relação ao aprendizado de máquina, mas muitos ainda estavam do lado de Chomsky no debate sobre os idiomas impossíveis.

“Muitas pessoas estavam apostando que redes transformadoras conseguiriam aprender qualquer coisa”, disse ela.

A partir da esquerda: Kyle Mahowald, Isabel Papadimitriou e Richard Futrell se uniram a Kallini e Potts para desenvolver linguagens impossíveis de testar. Foto: Sameer Singh

A equipe construiu uma dúzia de idiomas impossíveis, a maioria deles baseada em diferentes procedimentos para embaralhar palavras em cada frase de um conjunto de dados em inglês comum. Em um caso extremo, o embaralhamento foi aleatório, mas em todos os outros, seguiu um padrão simples: por exemplo, dividindo cada frase em grupos de três palavras adjacentes e trocando a segunda e a terceira palavras de cada grupo. Eles também incluíram o idioma partial reverse (reversão parcial) que Mitchell e Bowers haviam estudado, bem como um idioma full reverse (reversão total), que eles geraram invertendo todas as frases nos dados de treinamento. Seu último idioma, chamado word hop (salto de palavras) era a mais próximo do inglês comum. Diferia apenas na maneira de saber se um verbo era singular ou plural: em vez de usar um sufixo, usava um caractere especial colocado quatro palavras após o verbo. A equipe estava especialmente curiosa para ver como os modelos lidariam com esse idioma, inspirado em exemplos clássicos da linguística.

“Parece que não há nada particularmente complicado em dizer ‘coloque esta [coisa] quatro palavras depois desta’”, disse Hunter. “Mas nenhuma língua humana parece seguir esse tipo de padrão”.

Ilustração. Foto: Mark Belan/Quanta Magazine

Todos os idiomas impossíveis rompiam a estrutura linguística do inglês em graus variados, mas, fora o embaralhamento aleatório, todos eles comunicavam a mesma informação (em um sentido teórico específico). “Em princípio, um preditor onipotente não teria mais dificuldade com os idiomas impossíveis do que com os possíveis”, disse Futrell.

Kallini e seus colegas começaram com várias cópias de uma rede transformadora e treinaram cada uma delas em um idioma diferente, interrompendo periodicamente o treinamento para testar a capacidade de previsão de palavras de cada modelo. Todos eles melhoraram com o tempo. Mesmo no caso extremo do embaralhamento aleatório, o modelo ainda conseguia aprender que “o” é uma palavra mais comum do que “impossível”. Mas o modelo treinado com texto em inglês inalterado aprendeu muito mais rápido e no final teve melhor desempenho do que todos os outros, com uma exceção: o modelo treinado em word hop, que substituía determinados sufixos verbais por caracteres especiais a quatro palavras de distância, também se saiu bem.

Isso não foi surpreendente – afinal, a sutil distinção entre esse idioma e o inglês comum não é importante para a maioria das previsões de palavras. Mas quando eles compararam os modelos treinados nesses dois idiomas com um teste criado para identificar a distinção, viram uma diferença clara. Mais uma vez, foi muito mais difícil dominar o idioma impossível.

Uma clássica reviravolta no enredo: no fim das contas, os modelos de linguagem não eram assim tão onipotentes.

Missão cumprida?

Ilustração. Foto: Quanta Magazine

Os resultados mostram que os modelos de linguagem, assim como os seres humanos, preferem aprender alguns padrões linguísticos a outros. Suas preferências têm alguma semelhança com as preferências humanas, mas não são necessariamente idênticas – e ainda é possível que aspectos das teorias de Chomsky desempenhem um papel importante na forma como os humanos aprendem. Os cérebros humanos e as redes neurais são tão complicados que entender como eles diferem – sobretudo quando se trata de uma tarefa tão sutil quanto o aprendizado de linguagem – pode parecer impossível. O título do artigo “Mission: Impossible Language Models” é apropriado em mais de um sentido.

Mas, assim como os heróis de ação, os pesquisadores têm o hábito de aceitar missões aparentemente impossíveis e encontrar maneiras criativas de progredir. Kallini e seus coautores identificaram um princípio simples, chamado “localidade da informação”, que explica por que seus modelos consideraram alguns dos idiomas impossíveis mais difíceis do que outros. Esse princípio também pode ser relevante para a aquisição da linguagem humana. Seus resultados já geraram várias propostas concretas para estudos posteriores.

“É isso que realmente me agrada no artigo”, disse Ryan Nefdt, filósofo da ciência cognitiva da Universidade da Cidade do Cabo, na África do Sul. “Ele abre muitos caminhos e perguntas”.

Uma abordagem promissora é estudar como o aprendizado de idiomas impossíveis depende dos detalhes do desenho da rede neural. Os resultados negativos dos experimentos de Mitchell e Bowers já indicam que diferentes tipos de redes podem ter comportamentos muito diferentes. Em geral, os pesquisadores de modelos de linguagem refinam seus modelos ajustando as redes subjacentes e verificando quais ajustes melhoram os modelos no aprendizado de idiomas comuns. Em vez disso, talvez seja proveitoso procurar ajustes que deixem os modelos ainda piores no aprendizado de idiomas impossíveis.

“É um projeto fascinante”, disse Potts. “É o que estamos fazendo para Missão: Impossível 2″.

Como muitas sequências de franquias, essa segunda missão também apresentará uma subtrama, inspirada por uma resposta de Hunter aos resultados da equipe. Ele propôs a comparação do word hop com um novo idioma artificial que, segundo ele, causará mais problemas às redes, embora seja mais parecido com os idiomas de verdade. Hunter continua sendo mais simpático à abordagem chomskyana da linguística, mas está satisfeito com o fato de as afirmações sobre o aprendizado de idiomas em redes neurais estarem sendo testadas diretamente. “Eu adoraria ver mais pesquisas tentando fazer exatamente esse tipo de experimento”, disse ele.

Kallini e seus colegas esperam que seus resultados também inspirem outros pesquisadores a estudar idiomas impossíveis. Trata-se de um campo rico, com material suficiente para muitas outras missões.

“Isso tem o potencial de ser um programa de pesquisa para muita gente”, disse Futrell. “É para ser um gênero, não uma franquia”. / TRADUÇÃO DE RENATO PRELORENTZOU

História original republicada com permissão da Quanta Magazine, uma publicação editorialmente independente apoiada pela Simons Foundation. Leia o conteúdo original em Can AI Models Show Us How People Learn? Impossible Languages Point a Way.

Source link

Assine a nossa newsletter

Receba atualizações e aprenda com os melhores

explore mais conteúdo

aprenda mais com vídeos

você que impulsionar seu negócio?

entre em contato conosco e saiba como

contatos midiapro
small_c_popup.png

Saiba como ajudamos mais de 100 das principais marcas a obter sucesso

Vamos bater um papo sem compromisso!