A inteligência artificial que estuda o mundo sozinha – The BRIEF

joabe antonio de oliveira
fevereiro 13, 2025

Compartilhe esta postagem

Receba nosso boletim

Um novo estudo das universidades de Hong Kong e Berkeley desafia um dos dogmas do treinamento de inteligência artificial: a necessidade de exemplos rotulados por humanos. A pesquisa mostra que modelos de linguagem (LLMs) e visão (VLMs) generalizam melhor quando aprendem por reforço, sem depender de dados pré-formatados.

Em testes, modelos treinados com reforço foram mais eficazes em tarefas novas, enquanto os ajustados com supervisão humana apenas memorizaram regras específicas. Isso não significa que o aprendizado supervisionado (SFT) seja inútil. Segundo os pesquisadores, ele ajuda a estabilizar a saída dos modelos e a preparar o terreno para que o aprendizado por reforço (RL) funcione bem. Mas o estudo reforça a tendência já explorada por modelos como o DeepSeek-R1, concorrente da OpenAI, que aposta no aprendizado autônomo para resolver problemas complexos.

A implicação é clara: deixar modelos descobrirem suas próprias soluções pode ser um caminho mais eficiente – e barato – do que criar bancos de dados gigantes de treinamento manual. Em áreas onde os resultados podem ser verificados, essa abordagem pode acelerar inovações e gerar respostas que nem os humanos teriam previsto.

Você acabou de acompanhar uma nota rápida by The BRIEF! Siga mais informações clicando aqui

Source link

Leia mais sobre

Descubra Como Acessar o ChatGPT-4 de Graça no Android em 2025 (Funcionando!) – com uma surpresa especial! 🚀📱

Agências de marketing Big vs. Small: Qual escolher?

Apresentando avaliações para os fluxos de trabalho da IA - blog N8N

Eleve seus projetos web com 60 caracteres otimizado para SEO

joabe antonio de oliveira

Atua na MidiaPro como Gestor de Marketing Digital. Especializado em SEO, criação de conteúdo e Estratégias de Negócios. Além disso, gosta de escrever artigos para outros nichos como inteligência artificial, Saúde, Beleza, Tecnologia entre outros. Quando não está escrevendo conteúdos ou gerindo a MidiaPro está se dedicando à família e sua plantas, ou em uma pousada longe da agitação.