Nova IA da OpenAI tira 10 em prova do ITA e ‘passa’ em residência médica da USP

joabe antonio de oliveira
setembro 18, 2024

Compartilhe esta postagem

Receba nosso boletim

A nova inteligência artificial (IA) da OpenAI, batizada de OpenAI o1, já consegue “tirar 10″ na prova do Instituto Tecnológico de Aeronáutica (ITA) e ser aprovada para diversas especializações na prova de residência médica da Universidade de São Paulo (USP). A o1 foi lançada na semana passada com a promessa de capacidade de raciocínios lógico e matemático e de resolução de problemas complexos. Agora, a IA está sendo submetida a testes no mundo inteiro por especialistas e pesquisadores.

OpenAI lançou nova IA esta semana Foto: lilgrapher/Adobe Stock

No Brasil, o empreendedor Vinícius Soares submeteu o o1 à prova de matemática do ITA de 2024, onde o modelo gabaritou o teste, evidenciando sua capacidade de solucionar problemas matemáticos complexos. Diferentemente de modelos anteriores, que buscavam responder o mais rápido possível identificando conexões entre palavras, o o1 investe mais tempo de processamento para avaliar os dados já existentes e buscar diferentes caminhos para chegar a uma resposta, o que ocorreu no experimento testado por Soares.

A ideia de testar o ChatGPT o1 na prova do ITA surgiu após o empreendedor ler a divulgação do novo modelo e suas melhorias na capacidade de resolução de problemas envolvendo conjuntos, funções, geometria, trigonometria e estatística. Tendo prestado o vestibular do ITA, considerado um dos mais difíceis do país, Soares ficou curioso para ver como a IA se sairia diante desse desafio.

“Peguei as perguntas e colei uma a uma no novo modelo ChatGPT″, explica. “Ele não só forneceu as respostas corretas para todas as 10 questões, como também descreveu o raciocínio utilizado para chegar a cada solução.” Comparando as alternativas que ele apontou como corretas com o gabarito divulgado pelo ITA, a IA acertou 100% das perguntas.

Experimento de Vinicius Soares com a nova inteligência artificial da Open AI Foto: Reprodução/LinkedIn

A OpenAI afirma que o novo modelo é seis vezes mais preciso na resolução de problemas matemáticos do que seu antecessor, o GPT-4. Essa afirmação é corroborada por outros testes realizados pela própria empresa, nos quais o GPT-4 acertou em média 12% das perguntas, enquanto o o1 obteve um índice de acerto de 74%.

Soares acredita que o ChatGPT o1 tem potencial para revolucionar diversas áreas “Na educação, por exemplo, o modelo pode ser usado para gerar perguntas inéditas e apresentar a resolução passo a passo, auxiliando estudantes no preparo para provas como a do ITA. Em áreas como o direito, a IA pode analisar milhares de processos para identificar padrões e tendências, auxiliando, por exemplo, qual linha de defesa tem a melhor chance de ser deferida.”

Residência médica

Experimento de Matheus Ferreira com a nova inteligência artificial da Open AI Foto: Reprodução/LinkedIn

Outro exemplo para testar o potencial dessa nova tecnologia na área médica foi feito pelo Gerente Médico de Educação Médica e Saúde Digital, Matheus Ferreira, que realizou um experimento ousado: submeter o1 à prova de residência médica da USP-SP de 2024. A IA alcançou um índice de acerto de 82%, mesmo sem a capacidade de analisar imagens, superando modelos GPT-4, também da OpenAI, e o Claude Sonnet 3.5, da Anthropic, que acertaram 76%. A OpenAI já havia afirmado que uma das limitações do o1 era a incapacidade de lidar com formatos diferentes de texto.

A prova, composta por 120 questões, foi dividida em seis blocos de 20 questões cada, respeitando a ordem original. Cada bloco foi enviado ao o1, acompanhado de um prompt solicitando que a IA respondesse às perguntas como um médico e indicasse o gabarito para cada alternativa.

Devido à limitação do o1 em processar imagens, as questões que dependiam exclusivamente de imagens foram excluídas da análise comparativa. Nas demais questões com imagens no enunciado, o1 foi privado dessa informação, enquanto os outros modelos, GPT-4 e Claude 3.5 Sonnet, puderam acessá-la.

Durante o experimento, Ferreira observou que o principal desafio do o1 foi o tempo de resposta. Enquanto o GPT-4 e o Claude 3.5 Sonnet forneciam respostas quase instantâneas, em algumas respostas, o o1 demoravam cerca de 100 segundos. Contudo, a ferramenta da OpenAI se provou mais assertiva que as outras, acertando 93 questões, em comparação às 85 das outras IA´s. O tempo de resposta mais elevado é uma característica inerente ao tipo de tecnologia proposto pelo o1, que dedica mais poder computacional para a análise de informação disponível para o sistema.

“O grande diferencial do1 é sua capacidade de executar uma cadeia de pensamento (chain of thought) antes de fornecer a resposta final. É como se ele discutisse consigo mesmo, buscando validar a resposta, o que resulta em um processo mais demorado, mas potencialmente mais preciso.”

O gerente médico destacou, no entanto, que na Medicina Preventiva observou-se um desempenho ligeiramente inferior de todas as ferramentas ao fazerem o teste. Ele atribui esse acontecimento ao fato de que grande parte do banco de dados de treinamento das IAs está em inglês, enquanto a Medicina Preventiva envolve muitos aspectos regionais, relacionados a legislações e ao SUS (Sistema Único de Saúde), que são específicos do Brasil.

IA aliada ao conhecimento humano

Os resultados obtidos pelo ChatGPT o1 na prova de residência médica da USP-SP abrem um leque de possibilidades para o futuro da educação médica. Matheus defende que a IA deve ser vista como uma aliada no processo de ensino e aprendizagem, e não como uma ameaça.

“Acredito que devemos enxergar a IA como uma parceira no processo educacional. Em vez de tentar evitar ou proibir seu uso, devemos incentivar uma utilização correta e ética, em momentos apropriados.”

Ele destaca dois grandes potenciais da IA para a educação: a criação de um tutor personalizado para o aluno e a atualização médica constante. A IA pode atuar como um “professor” particular, adaptando-se às necessidades e ao ritmo de aprendizado de cada estudante. Uma pesquisa feita em Harvard demonstrou que estudantes ao utilizarem um tutor de IA, tiveram um resultado de notas 22% maior, do que aquelas que apenas usaram o método “tradicional” de estudo. Além disso, a ferramenta também pode auxiliar os profissionais da saúde a se manterem atualizados em um cenário onde o conhecimento médico dobra a cada 73 dias, algo humanamente impossível de acompanhar sem o auxílio da tecnologia.

Ferreira vislumbra um futuro promissor para a inteligência artificial na área da medicina. Ele acredita que a IA se tornará um “copiloto” indispensável para os médicos, auxiliando no diagnóstico, tratamento e pesquisa, permitindo que os profissionais se dediquem mais à relação médico-paciente e à compreensão de aspectos que a máquina não pode captar.

“A IA tende a acelerar a evolução de muitos campos na medicina”, prevê. “Para a prática médica, acredito que ela aumentará a acurácia em diagnósticos e tratamentos. Na pesquisa, nos próximos anos, prevejo o surgimento de novas medicações e tratamentos para doenças que atualmente não possuem soluções satisfatórias.”

Evolução da IA

Chat GPT-4 “perde” em relação a nova IA Foto: Mojahid Mottakin/ Adobe Stock

Até aqui, grandes modelos de linguagem (LLMs), como o GPT-4, aprimoravam sua capacidade de resposta aumentando o volume de dados de treinamento. Uma vez treinados, esses sistemas buscam responder o mais rápido possível, identificando as conexões mais comuns entre as palavras, como já dito anteriormente.

O o1 representa uma mudança de paradigma nesse processo. Em vez de focar apenas no volume dos dados, a OpenAI investiu em uma arquitetura que permite ao sistema dedicar mais tempo de processamento para avaliar os dados já existentes, buscando diferentes caminhos para chegar a uma resposta. Essa abordagem, conhecida como “cadeia de pensamento”, permite que a IA simule o raciocínio humano, avaliando cada etapa da construção da resposta e corrigindo erros ao longo do processo.

Além disso, o o1 utiliza o aprendizado por reforço, um processo de validação em que a máquina é “recompensada” ao encontrar respostas corretas. Esses resultados positivos são realimentados no sistema, aprimorando seu desempenho sem a necessidade de adicionar novos dados de treinamento.

Essa nova abordagem, que combina a cadeia de pensamento com o aprendizado por reforço, permitiu ao o1 alcançar resultados impressionantes em áreas como ciência, matemática e programação, superando modelos anteriores em tarefas que exigem raciocínio lógico e resolução de problemas complexos.

Source link