O DeepSeek-R1, o último de uma série de modelos desenvolvidos com poucos chips e baixo custo, desafia o domínio de gigantes como a OpenAI, a Google e a Meta.
O modelo de grande linguagem (LLM) homónimo do laboratório chinês de inteligência artificial DeepSeek, surpreendeu Sillicon Valley ao tornar-se um dos maiores concorrentes do ChatGPT da empresa americana OpenAI.
Os últimos modelos DeepSeek, lançados este mês, são considerados extremamente rápidos e de baixo custo.
O DeepSeek-R1, o último dos modelos desenvolvidos com menos chips, desafia o domínio de gigantes como a OpenAI, a Google e a Meta.
Eis a DeepSeek em oito perguntas:
1. De onde veio a DeepSeek?
A empresa sediada em Hangzhou, na China, foi fundada em julho de 2023 por Liang Wenfeng, um engenheiro de informação e eletrónica e licenciado pela Universidade de Zhejiang. Fazia parte do programa de incubação da High-Flyer, um fundo que Liang fundou em 2015. Liang, tal como outros nomes importantes da indústria, tem como objetivo atingir o nível de “inteligência artificial geral” que pode alcançar ou ultrapassar os humanos em várias tarefas.
Operando de forma independente, o modelo de financiamento da DeepSeek permite-lhe prosseguir projetos ambiciosos de IA sem pressão de investidores externos e dar prioridade à investigação e desenvolvimento a longo prazo. A equipa da DeepSeek é composta por jovens e talentosos licenciados das melhores universidades da China e promove uma cultura de inovação. O processo de recrutamento da empresa dá prioridade às competências técnicas em detrimento da experiência profissional. Em suma, considera-se que tem uma nova perspetiva no processo de desenvolvimento de modelos de inteligência artificial.
A jornada da DeepSeek começou em novembro de 2023 com o lançamento do DeepSeek Coder, um modelo de código aberto projetado para tarefas de codificação. Seguiu-se o DeepSeek LLM, que tinha como objetivo competir com outros modelos de linguagem importantes. O DeepSeek-V2, lançado em maio de 2024, ganhou força devido ao seu forte desempenho e baixo custo. Também forçou outros grandes gigantes chineses da tecnologia, como a ByteDance, a Tencent, a Baidu e a Alibaba, a baixar os preços dos seus modelos de IA.
2) Qual é a capacidade dos modelos DeepSeek?
O DeepSeek-V2 foi posteriormente substituído pelo DeepSeek-Coder-V2, um modelo mais avançado com 236 mil milhões de parâmetros. Projetado para prompts de codificação complexos, o modelo tem uma janela de contexto alta de até 128.000 tokens. Uma janela de contexto de 128.000 tokens é o comprimento máximo do texto de entrada que o modelo pode processar simultaneamente.
Uma janela de contexto maior permite que um modelo compreenda, resuma ou analise textos mais longos. Esta é uma grande vantagem, por exemplo, quando se trabalha com documentos longos, livros ou diálogos complexos.
Um token é uma unidade num texto. Esta unidade pode muitas vezes ser uma palavra, uma partícula (como “artificial” e “inteligência”) ou mesmo um caracter. Por exemplo: “A inteligência artificial é ótima!” pode consistir em quatro tokens: “Artificial”, “inteligência”, “ótimo”, “!”.
Os modelos mais recentes da empresa, DeepSeek-V3 e DeepSeek-R1, consolidaram ainda mais a sua posição. O DeepSeek-V3, um modelo de 671 000 parâmetros, requer muito menos recursos do que os seus homólogos, ao mesmo tempo que apresenta um desempenho impressionante em vários testes de referência com outras marcas. O DeepSeek-R1, lançado em janeiro de 2025, centra-se em tarefas complexas como raciocínio, codificação e matemática. Com as suas capacidades nesta área, desafia o o1, um dos modelos mais recentes do ChatGPT.
Embora a DeepSeek tenha alcançado um sucesso significativo num curto espaço de tempo, a Forbes escreveu que a empresa se concentra principalmente na investigação e não tem planos pormenorizados de comercialização num futuro próximo.
3. É gratuita para o utilizador final?
Uma das principais razões pelas quais a DeepSeek conseguiu atrair a atenção é o facto de ser gratuita para os utilizadores finais. De facto, este é o primeiro sistema avançado de inteligência artificial disponível gratuitamente para os utilizadores. Outros sistemas poderosos, como o OpenAI o1 e o Claude Sonnet, exigem uma subscrição paga. Mesmo algumas subscrições impõem quotas aos utilizadores.
O Google Gemini também está disponível gratuitamente, mas as versões gratuitas estão limitadas a modelos mais antigos. Para já, a DeepSeek não tem limitações.
4. Como usar?
Os utilizadores podem aceder à interface de conversação do DeepSeek desenvolvida para o utilizador final em “chat.deepseek”. Basta introduzir comandos no ecrã de conversação e premir o botão “search” para pesquisar na Internet.
Existe uma opção “deep think” para obter informações mais pormenorizadas sobre qualquer assunto. Embora esta opção forneça respostas mais detalhadas aos pedidos dos utilizadores, também pode pesquisar mais sítios no motor de busca. No entanto, ao contrário do ChatGPT, que só efetua pesquisas com base em determinadas fontes, esta funcionalidade também pode revelar informações falsas em alguns pequenos sites. Por isso, os utilizadores precisam de confirmar as informações que obtêm neste chatbot.
5. É seguro?
Outra questão importante sobre a utilização do DeepSeek é se é seguro. O DeepSeek, tal como outros serviços, requer dados do utilizador, que são provavelmente armazenados em servidores na China.
Tal como acontece com qualquer LLM, é importante que os utilizadores não forneçam dados sensíveis ao chatbot.
Uma vez que o DeepSeek também é de código aberto, os investigadores independentes podem analisar o código do modelo e tentar determinar se é seguro. Espera-se que nos próximos dias sejam divulgadas informações mais pormenorizadas sobre as questões de segurança.
6. O que significa código aberto?
Os modelos, incluindo o DeepSeek-R1, foram lançados em grande parte como código aberto. Isto significa que qualquer pessoa pode aceder ao código da ferramenta e utilizá-lo para personalizar o LLM. Os dados de treino são proprietários.
A OpenAI, por outro lado, lançou o modelo o1 fechado e já o está a vender apenas a utilizadores, mesmo a utilizadores, com pacotes de 20 a 200 dólares por mês.
7. Como é que produziu um modelo destes apesar das restrições dos EUA?
A empresa também estabeleceu parcerias estratégicas para melhorar as suas capacidades tecnológicas e o seu alcance no mercado. Uma das colaborações notáveis foi com a empresa americana de chips AMD. De acordo com a Forbes, a DeepSeek utilizou as GPUs (unidades de processamento gráfico) AMD Instinct e o software ROCM em etapas importantes do desenvolvimento do modelo, especialmente para o DeepSeek-V3.
A MIT Technology Review informou que Liang tinha comprado stocks significativos de chips Nvidia A100, um tipo atualmente proibido de exportar para a China, muito antes das sanções impostas pelos EUA contra a China. O meio de comunicação social chinês 36Kr estima que a empresa tem mais de 10 000 unidades em stock. Há quem diga que esse número é de 50.000. Ao aperceber-se da importância deste stock para o treino de IA, Liang fundou a DeepSeek e começou a utilizá-los em conjunto com chips de baixo consumo para melhorar os seus modelos.
Mas o ponto importante aqui é que Liang encontrou uma maneira de construir modelos competentes com poucos recursos . As restrições à exportação de chips dos EUA obrigaram os criadores da DeepSeek a criar algoritmos mais inteligentes e mais eficientes em termos energéticos para compensar a sua falta de poder de computação. Pensa-se que o ChatGPT precisa de 10 000 GPUs Nvidia para processar os dados de treino. Os engenheiros da DeepSeek dizem que conseguiram resultados semelhantes com apenas 2.000 GPUs.
8. Quais são as técnicas inovadoras da DeepSeek?
O sucesso da DeepSeek pode ser atribuída a várias inovações importantes.
Aprendizagem por reforço: ao contrário dos métodos tradicionais, que dependem muito do ajuste fino supervisionado, a DeepSeek usa RL puro, de acordo com o tecnólogo Janakiram MSV. No ajuste fino supervisionado, o modelo geralmente é treinado em um grande conjunto de dados antes do ajuste fino. A utilização da RL pura significa que um sistema de IA é treinado utilizando apenas métodos de aprendizagem por reforço. Isto significa que o modelo aprende apenas através de mecanismos de recompensa e punição, sem dados extraídos por humanos ou métodos de aprendizagem supervisionados. Esta abordagem é particularmente eficaz para melhorar as capacidades de raciocínio do DeepSeek-R1.
Arquitetura MoE: a arquitetura Mixture of Experts, ou Mistura de Peritos, é um sistema inovador de diferentes peritos em modelos de inteligência artificial. Aqui, vários peritos são selecionados como os mais adequados para a entrada do utilizador e apenas eles funcionam. Desta forma, aumenta-se o desempenho de grandes modelos e reduz-se o custo de processamento. Pode pensar-se nisto como uma equipa de peritos, cada um especializado numa área diferente. Quando confrontados com uma tarefa, apenas os peritos relevantes são chamados, assegurando uma utilização eficiente dos recursos e das competências.
Atenção latente multi-cabeças: Este método permite que um modelo aprenda as relações entre representações latentes e entradas utilizando diferentes cabeças de atenção. É utilizado para processar a informação de uma forma mais flexível, poderosa e pormenorizada. É possível pensar nisto como múltiplas “cabeças de atenção” que podem concentrar-se em diferentes partes dos dados de entrada, permitindo ao modelo compreender a informação de forma mais abrangente.
Destilação: a DeepSeek usa técnicas de destilação para transferir o conhecimento e os recursos de modelos maiores para modelos menores e mais eficientes. Isso é semelhante a um professor transferindo conhecimento para um aluno. Ele permite que o aluno execute tarefas de proficiência semelhante, mas com menos experiência ou recursos. O processo de destilação da DeepSeek permite que modelos menores herdem os recursos avançados de raciocínio e processamento de linguagem de seus equivalentes maiores, tornando-os mais versáteis e acessíveis.
Em resumo, ao utilizar arquiteturas eficientes, como RL e MoE, a DeepSeek reduz significativamente os recursos computacionais necessários para o treino e pode concluí-lo a custos mais baixos. Por exemplo, o DeepSeek-V3 foi treinado por uma fração do custo dos modelos no Meta.
Alexandr Wang, CEO da ScaleAI, que fornece dados de treino para modelos de IA de grandes empresas como a OpenAI e a Google,descreveu o produto da DeepSeek como “um modelo que abala a terra “ num discurso no Fórum Económico Mundial (WEF) em Davos, na Suíça, na quinta-feira.