Um novo estudo das universidades de Hong Kong e Berkeley desafia um dos dogmas do treinamento de inteligência artificial: a necessidade de exemplos rotulados por humanos. A pesquisa mostra que modelos de linguagem (LLMs) e visão (VLMs) generalizam melhor quando aprendem por reforço, sem depender de dados pré-formatados.
Em testes, modelos treinados com reforço foram mais eficazes em tarefas novas, enquanto os ajustados com supervisão humana apenas memorizaram regras específicas. Isso não significa que o aprendizado supervisionado (SFT) seja inútil. Segundo os pesquisadores, ele ajuda a estabilizar a saída dos modelos e a preparar o terreno para que o aprendizado por reforço (RL) funcione bem. Mas o estudo reforça a tendência já explorada por modelos como o DeepSeek-R1, concorrente da OpenAI, que aposta no aprendizado autônomo para resolver problemas complexos.
A implicação é clara: deixar modelos descobrirem suas próprias soluções pode ser um caminho mais eficiente – e barato – do que criar bancos de dados gigantes de treinamento manual. Em áreas onde os resultados podem ser verificados, essa abordagem pode acelerar inovações e gerar respostas que nem os humanos teriam previsto.
Você acabou de acompanhar uma nota rápida by The BRIEF! Siga mais informações clicando aqui