- Author, Camilla Veras Mota
- Role, Da BBC News Brasil em São Paulo
- Twitter, @cavmota
O mundo da tecnologia reagiu inicialmente com ceticismo: quem garantia que o que estava escrito ali era verdade e que não se tratava de mera propaganda do governo chinês?
Esse momento foi breve. À medida que os especialistas foram testando o modelo e entendendo como tinha sido construído, perceberam que de fato rivalizava com os das big techs americanas — e embaralhava a disputa entre EUA e China pelo posto de superpotência da tecnologia.
Uma semana depois, o Vale do Silício entrou em pânico. As ações das 7 principais empresas de tecnologia dos Estados Unidos desidrataram e as Magnificent 7 (Apple, Microsoft, Alphabet (Google), Amazon, Nvidia, Tesla e Meta) perderam US$ 1 trilhão em valor de mercado em 27 de janeiro.
Depois vieram os questionamentos, de que os US$ 5,5 milhões que a empresa afirma ter investido para treinar o modelo eram subestimados, de que o número de chips usados no projeto era maior do que os dois mil divulgados pela companhia.
Na quinta-feira (29/1), a OpenAI alegou que a DeepSeek usou dados do ChatGPT para treinar seu chatbot, sem dar mais detalhes sobre o caso.
Também repercutiu a autocensura da plataforma, que desconversa e dá respostas como “Desculpe, isso está além do meu escopo atual. Vamos falar de outra coisa” quando questionada sobre temas considerados controversos do ponto de vista da ideologia Partido Comunista Chinês — “O que foi o massacre da Praça Celestial?”, por exemplo.
Apesar de ter sido comparado ao ChatGPT do ponto de vista da experiência do usuário, por trás das cortinas o DeepSeek é bem distinto do concorrente americano.
“A forma como eles fizeram foi totalmente diferente da maioria das empresas de tecnologia”, diz o professor do Centro de Informática da Universidade Federal de Pernambuco (CIn-UFPE), montado na década de 1980 e hoje um dos líderes em pesquisa em inteligência artificial na América Latina.
Em entrevista à BBC News Brasil, o especialista mergulhou em quatro características que explicam porque o DeepSeek impressionou.
1. Código aberto
A primeira coisa que chamou atenção foi o código aberto. “Eles contaram coisas que não haviam sido divulgadas por outros fabricantes”, ressalta o professor.
Até então, predominavam entre os modelos de linguagem de grande escala (LLM na sigla em inglês, de “large language models“) os de código fechado, caso do ChatGPT e do Claude, em que toda a engrenagem por trás da interface é mantida em sigilo, e os de pesos abertos, em que alguns dos parâmetros são divulgados, caso do LLaMA, da Meta.
O DeepSeek, segundo Zanchettin, foi além.
“Eles de certa forma publicaram a receita de como você treina o modelo, que é um negócio protegido a sete chaves mesmo por quem publica os modelos em formato de open weights (pesos abertos). Acho que é um diferencial muito grande.”
Antes da chegada do chatbot, os pesquisadores não tinham uma noção muito clara da cadeia de raciocínio para se chegar a modelos mais avançados de inteligência artificial.
2. Raciocínio explícito
Nesse sentido, ele também aponta como diferencial o mecanismo que detalha o passo a passo do raciocínio em cada uma das respostas que o DeepSeek dá quando o botão “DeepThink” está ativo.
“A maioria das empresas não queria que a gente entendesse direito [como o modelo raciocina], porque isso pode levar você a perceber que ele está fazendo as coisas direito ou que não entendeu nada, e que o resultado é mais ou menos aleatório”, argumenta.
Em um teste feito pela reportagem com uma questão de matemática da segunda fase do vestibular do Instituto Tecnológico da Aeronáutica (ITA) de 2024, o DeepSeek testou uma série de caminhos até chegar no que considerou a resposta correta.
Foi e voltou na linha de pensamento, com expressões como “Calma”, “Espere aí”, “Mas como?”, “Espere, talvez haja um caminho melhor”, “Deixe-me tentar essa abordagem”, “Outra ideia:”, “Isso parece demais, vamos checar novamente”, “Vamos nessa direção”.
Enxergar esse processo, segundo Zanchettin, é útil para os especialistas entenderem melhor a robustez e interpretarem as habilidades do modelo.
“Essa é uma informação bastante relevante do ponto de vista de como o modelo toma decisões.”
3. Aprendizagem por reforço
Outra surpresa foi o método usado para desenvolver e treinar a plataforma.
Os modelos fechados até então demandavam bastante intervenção humana, uma estratégia conhecida no jargão da inteligência artificial como “humano no loop” (HITL, na sigla em inglês), muito usada nas etapas de ajuste fino (“fine tuning“).
O DeepSeek tem uma dependência “muito menor” da supervisão humana, com uma abordagem centrada no aprendizado por reforço: o sistema é treinado dentro de um modelo de recompensas (em que recebe um retorno positivo, por exemplo, cada vez que dá a resposta correta para um problema matemático) e vai se sofisticando por conta própria, aprendendo a “raciocinar” de forma cada vez mais eficiente e, como consequência, melhorando a qualidade das respostas que devolve.
No relatório técnico divulgado em 22 de janeiro, a equipe compartilhou que perceber que a abordagem focada na auto-evolução tinha sido bem sucedida fora equivalente a um “aha moment“, algo como um “momento Eureca”.
“Isso tornou o processo não só mais interessante, mas também mais barato computacionalmente”, diz Zanchettin.
O que pode significar, ele acrescenta, que estamos diante de uma mudança de paradigma importante. Sem a necessidade de investimentos bilionários, mais atores têm chance de competir na busca por inovação em inteligência artificial, inclusive os brasileiros.
O pesquisador, que foi professor visitante na Northwestern University, pondera que, mesmo nos Estados Unidos, grupos de pesquisa e startups sem grandes recursos dificilmente conseguem disputar com as big techs, que se baseiam na “força bruta” quando se trata de sistemas de inteligência artificial: “Quanto mais recursos você tem, mais hardware você consegue adquirir, mais dados você pode usar para treinar o modelo, e melhor é o modelo.”
As inovações a menor custo da DeepSeek “colocam um monte de gente muito talentosa de volta ao tabuleiro de jogo, com possibilidade de inovar no mesmo nível”, acredita.
“Acho que vai abrir portas não só para ir para a academia, mas para a indústria e para a população como um todo, que vai ser inundada com muita inovação e com um custo menor.”
4. Da restrição à inovação
A aprendizagem por reforço é uma entre uma série de inovações que a DeepSeek apresentou.
“Tem vários avanços tecnológicos, do ponto de vista de engenharia, que eles conseguiram fazer funcionar em conjunto e que a gente não tinha conseguido ainda. Esse também foi um diferencial grande”, diz o professor.
O feito chama ainda mais atenção por ter sido alcançado sem os melhores chips disponíveis no mercado, já que em 2022 os Estados Unidos impuseram à China restrições para importação de chips de última geração, justamente para barrar o avanço chinês nessa área, alegando preocupações com segurança.
“Aqui no Brasil, por conta das várias dificuldades que a gente enfrenta, a gente sempre teve esse mantra de que a dificuldade gera oportunidade, de que a inovação vem da restrição, e eu acho que a China provou isso agora”, acrescenta.
Até a estreia do DeepSeek, a crença em boa parte do Ocidente era de que a China estava bem atrás dos Estados Unidos na área de IA avançada. O ChatGPT surgiu em 2022 e, desde então, as big techs americanas vinham lançando suas plataformas de IA generativa com algum sucesso, como o Claude, da Anthropic, e o Gemini, do Google.
Empresas chinesas como Baidu, Tencent e ByteDance, dona do TikTok, chegaram a colocar no mercado modelos de IA, mas que não tinham sido considerados à altura do ChatGPT.
O DeepSeek muda o jogo e esquenta a corrida entre China e Estados Unidos pelo posto de grande potência da tecnologia deste século 21.
Dias depois da estreia, outra empresa chinesa, a Alibaba, lançou seu modelo de IA e disse que ele era ainda melhor do que o da conterrânea.
Para o pesquisador brasileiro, essa rivalidade dos chatbots é uma fatia pequena das ambições dos dois países na área de inteligência artificial, um ângulo que talvez nem lhes interesse tanto do ponto de vista estratégico.
A IA, ele lembra, tem aplicações militares e em áreas tão diversas quanto as de robótica, de veículos autônomos, de sistemas de comunicação e de saúde.