Apesar do contacto com as massas ser relativamente recente, a Inteligência Artificial (IA) é estudada há largos anos e a evidência científica é vasta. Curiosamente, os chatbots mais antigos mostram sinais de declínio cognitivo, tendo falhado em métricas importantes num teste normalmente utilizado em seres humanos.
Pelas suas potencialidades, entregamos à IA cada vez mais tarefas, confiando-lhas quase cegamente. Por exemplo, para diagnósticos médicos, pela rapidez e eficiência com que as ferramentas conseguem detetar anomalias e sinais de alerta em historiais clínicos, radiografias e outros conjuntos de dados antes de se tornarem óbvios a olho nu.
Um novo estudo levanta, agora, preocupações de que as tecnologias de IA mostram sinais de deterioração da cognição com a idade, assim como acontece com as pessoas.
Essas descobertas desafiam a suposição de que, em breve, a IA substituirá os médicos humanos. Já que o comprometimento cognitivo evidente nos principais chatbots pode afetar a sua confiabilidade no diagnóstico médico e minar a confiança dos pacientes.
Escreveram os autores do estudo, que testaram chatbots baseados em Large Language Model (LLM) disponíveis publicamente, incluindo o ChatGPT da OpenAI, o Sonnet da Anthropic e o Gemini da Alphabet, usando o teste Montreal Cognitive Assessment.
O Montreal Cognitive Assessment (MoCA) dá nome a uma série de tarefas que os neurologistas usam para testar as habilidades de atenção, memória, linguagem, habilidades espaciais e função mental executiva.
Este teste é mais comummente utilizado para avaliar ou testar o início do défice cognitivo em doenças como a doença de Alzheimer ou a demência.
Por via do MoCA, os sujeitos são submetidos a tarefas como desenhar uma hora específica no mostrador de um relógio, começar com 100 e subtrair sete repetidamente, recordar o maior número possível de palavras de uma lista falada, etc.
Nos seres humanos, 26 em 30 é considerado um resultado satisfatório, ou seja, o sujeito não tem qualquer défice cognitivo.
Apesar de alguns aspetos dos testes, como a nomeação, a atenção, a linguagem e a abstração, terem sido aparentemente fáceis para a maioria dos LLM utilizados, todos eles tiveram um desempenho fraco nas capacidades visuais/ espaciais e nas tarefas executivas, com vários deles a terem um desempenho pior do que outros em áreas como a memória diferida.
Um aspeto crucial é o facto de, enquanto a versão mais recente do ChatGPT (versão 4) obteve 26 em 30), o LLM Gemini 1.0 mais antigo obteve apenas 16 pontos. Com estes dados, os investigadores concluíram que os LLM mais antigos mostram sinais de declínio cognitivo.
Segundo os autores do estudo, as suas conclusões são apenas de observação, pois as diferenças críticas entre as formas de funcionamento da IA e da mente humana significam que o estudo não pode constituir uma comparação direta.
No entanto, advertem para aquilo a que chamam "área significativa de fraqueza", que poderia travar a implementação da IA na medicina clínica. Os cientistas argumentaram, especificamente, contra a utilização da IA em tarefas que requerem abstração visual e função executiva.
Estudo tem demasiadas limitações, segundo outros cientistas
Apesar das conclusões, outros cientistas não ficaram convencidos, tendo criticado os métodos e o enquadramento: os autores do estudo são acusados de antropomorfizar a IA, projetando nela as condições humanas.
Além disso, é criticada a utilização do MoCA. Os cientistas sugerem que, por ser um teste construído para ser exclusivamente utilizado em seres humanos, não produz resultados significativos quando aplicado a outras formas de inteligência.
O MoCA foi concebido para avaliar a cognição humana, incluindo o raciocínio visuo-espacial e a auto-orientação - faculdades que não se coadunam com a arquitetura baseada em texto dos LLM.
Poder-se-ia razoavelmente perguntar: porquê avaliar os LLM com base nestas métricas? As suas deficiências nestas áreas são irrelevantes para as funções que podem desempenhar em contextos clínicos - principalmente tarefas que envolvem o processamento de texto, o resumo de literatura médica complexa e o apoio à decisão.
Escreveu Aya Awwad, investigadora do Mass General Hospital, em Boston, em resposta ao estudo.
Outra grande limitação reside no facto de não se ter realizado o teste em modelos de IA mais do que uma vez ao longo do tempo, para medir a forma como a função cognitiva muda.
Segundo os críticos, Aaron Sterling, diretor-executivo da EMR Data Cloud, e Roxana Daneshjou, professora assistente de ciências biomédicas em Stanford, em resposta ao estudo, testar modelos após atualizações significativas seria mais pertinente e alinhar-se-ia melhor com a hipótese do estudo.
Em resposta à discussão, o autor principal do estudo, Roy Dayan, médico no Hadassah Medica Center, em Jerusalém, comentou que muitas das respostas ao estudo tomaram o enquadramento demasiado à letra.
Esperávamos lançar um olhar crítico sobre a investigação recente na intersecção entre a medicina e a IA, algumas das quais colocam os LLM como substitutos de pleno direito dos médicos humanos.
Escreveu Dayan, em resposta às críticas, dizendo que "ao administrarmos os testes padrão utilizados para avaliar as deficiências cognitivas humanas, tentámos identificar as diferenças entre a cognição humana e a forma como os LLM processam e respondem à informação".
Foi por isso, também, que os interrogámos como faríamos com os seres humanos, e não através de "técnicas de prompting de última geração", como sugere a Dra. Awwad.