Como a transparência está revolucionando a Inteligência Artificial

joabe antonio de oliveira
fevereiro 4, 2025

Compartilhe esta postagem

Receba nosso boletim

Sucesso da startup chinesa no mundo da IA não foi repentino. Desde 2023, a empresa publica trabalhos relevantes para a área de IA com uma frequência impressionante.

Por:
Jonatas Grosman, Pesquisador no laboratório ExACTa PUC-Rio, Pontifícia Universidade Católica do Rio de Janeiro (PUC-Rio)

“Não temos um fosso (barreira de defesa contra concorrentes), e nem a OpenAI tem”, afirmou um documento interno da Google, vazado há quase dois anos. A mensagem propagava entre os funcionários da empresa que a tecnologia de Inteligência Artificial em código aberto – com livre acesso a concorrentes – eventualmente superaria aquelas protegidas por segredo comercial.

Naquela época, parecia difícil imaginar que isso aconteceria de fato. Afinal, como pequenas empresas e desenvolvedores independentes poderiam competir com os bilhões de dólares investidos em IA pelas big techs? Bem, a DeepSeek acaba de nos mostrar como.

Como alguém que acompanha de perto o desenvolvimento da área de IA, confesso que fiquei impressionado com a ascensão da DeepSeek, não apenas pelos números – $5,6 milhões para criar um modelo que compete com aqueles que custam dezenas ou até centenas de milhões – mas com o que isso representa para o futuro da tecnologia. O mercado reagiu com pânico, apagando mais de meio trilhão de dólares do valor da Nvidia e derrubando ações de gigantes como Google e Microsoft. Mas, na minha opinião, a maioria de nós pode estar olhando para isso tudo sob uma ótica equivocada.

Para a maioria das pessoas, a DeepSeek parece ter alcançado o topo abruptamente, mas na verdade a história é bem diferente. Desde o lançamento da empresa em 2023, os pesquisadores têm publicado trabalhos extremamente relevantes para a área de IA com uma frequência impressionante, apresentando a cada publicação inovações que serviram para pavimentar o caminho deles até a posição que se encontram hoje.

Mas o que fez de fato a empresa ser conhecida do grande público foi o resultado das suas duas últimas publicações. Primeiro, publicaram em dezembro de 2024 o trabalho que descreve o treinamento do modelo DeepSeek-V3, que tem desempenho similar a modelos como o GPT4o. E, depois de algumas semanas, publicaram o modelo que realmente mudou o jogo, o DeepSeek-R1.

O DeepSeek-R1 é uma versão modificada do V3, com uma característica especial que até o momento nós apenas havíamos visto nos modelos mais recentes da OpenAI – mais especificamente no o1 e o3 -, que é a capacidade de “reasoning”. Isso significa que o modelo é capaz de solucionar questões complexas produzindo uma espécie de “monólogo interno”, passando por uma série de etapas intermediárias antes de dar uma resposta final.

Essa nova abordagem na geração das respostas é mais lenta e exige mais recursos computacionais para funcionar. No entanto, fez com que LLMs conseguissem resolver problemas que antes pareciam quase impossíveis para esse tipo de modelo.

O que mais me fascina nesses modelos da DeepSeek é como foram construídos e disponibilizados. Ambos modelos são acompanhados de publicações muito bem detalhadas de como foram construídos e são open source (com licença comercialmente permissiva). Esse tipo de transparência científica e “altruismo”, não é muito comum nesse universo de LLMs hoje em dia, talvez encontrando paralelo apenas na abordagem dos pesquisadores da Meta AI, que em dezembro de 2024 lançaram o modelo Llama 3.3 de forma open source.

Nas poucas entrevistas que pude encontrar do CEO da DeepSeek, é possível notar que a filosofia da empresa é de fato focada na tecnologia aberta, com falas que ecoam o documento da Google que citei no início dessa matéria: “Em face de tecnologias disruptivas, fossos criados por código fechado são temporários”. Essa é uma visão que a Meta parece compartilhar. Não é à toa que o seu CEO recentemente reforçou que o sucesso da DeepSeek apenas confirmou que eles estão no caminho certo.

No meio de toda essa comoção gerada pela DeepSeek, algumas pessoas levantaram a hipótese de que na verdade os modelos dela foram estrategicamente treinados com as saídas dos modelos da OpenAI. Isso pode até ser verdade, mas é aí que vejo a verdadeira beleza da abordagem aberta na produção de conhecimento científico: não precisamos confiar cegamente, podemos verificar. Pesquisadores ao redor do mundo já estão reproduzindo aspectos do trabalho da DeepSeek em menor escala, e a empresa Hugging Face já anunciou esforços para replicar completamente os modelos da DeepSeek em larga escala. É a ciência funcionando como deveria: aberta, verificável, reproduzível.

O que mais me anima é pensar no que vem pela frente. Como foi anunciado recentemente pela Meta, não demorará muito para termos o Llama 4, e depois disso, outros modelos ainda mais impressionantes surgirão. Cada novo modelo open source servindo de base para o próximo.

O cientista Yann LeCun, um dos pioneiros da Inteligência Artificial, disse recentemente algo que eu penso resumir bem a situação atual: a leitura correta dos eventos recentes não é “China superando os EUA em IA”, mas sim “modelos open source superando os proprietários”. Ou seja, a DeepSeek não criou algo do zero, ela construiu sobre fundamentos abertos, inovou, e agora está compartilhando seu trabalho para que outros possam fazer o mesmo.

A revolução que a DeepSeek representa não é sobre tecnologia superior ou custos menores – embora ambos sejam impressionantes. É sobre mostrar que existe um caminho diferente para o desenvolvimento de modelos de IA. Um caminho que não depende de recursos infinitos ou segredos bem guardados, mas de inovação inteligente e colaboração aberta. E esse, acredito eu, é o caminho que vai realmente levar a humanidade adiante.

Jonatas Grosman não presta consultoria, trabalha, possui ações ou recebe financiamento de qualquer empresa ou organização que poderia se beneficiar com a publicação deste artigo e não revelou nenhum vínculo relevante além de seu cargo acadêmico.

Source link