Novo Modelo DeepSeek V3-0324 Desafia GPT-4o e Claude-3.5

Novo Modelo DeepSeek V3-0324 Desafia GPT-4o e Claude-3.5

Arkadiy Andrienko

DeepSeek AI anunciou uma grande atualização para seu modelo principal — DeepSeek V3-0324. O modelo, disponível no GitHub e Hugging Face, não apenas alcança, mas também supera alternativas fechadas como GPT-4o e Claude-3.5-Sonnet em várias áreas-chave.

No cerne da atualização está uma arquitetura aprimorada de Mistura de Especialistas (MoE), onde 671 bilhões de parâmetros são ativados dinamicamente em blocos de 37 bilhões por token. A tecnologia de Atenção Latente Multi-cabeça reduz o consumo de memória em 60%, enquanto a Previsão Multi-Token aumenta a velocidade de geração de texto em 1,8 vezes. O modelo foi treinado em um conjunto de dados que inclui problemas matemáticos, código em 15 idiomas e artigos científicos. O treinamento levou 2,788 milhões de horas de GPU em clusters H800 — o equivalente a 318 anos de trabalho contínuo em um único acelerador. O resultado: 89,3% de precisão na resolução de problemas matemáticos de nível escolar (GSM8K) e uma taxa de sucesso de 65,2% na geração de código (HumanEval) — 10–15% superior às soluções de código aberto anteriores.

A atualização trouxe algumas melhorias inesperadas:

  • A geração de código frontend agora produz interfaces visualmente atraentes;
  • A qualidade do texto atingiu fluência em nível humano em ensaios longos;
  • A precisão na chamada de funções alcançou 92%, resolvendo um dos principais problemas das versões anteriores.

Embora as notas oficiais da atualização ainda não tenham sido lançadas, o tamanho do modelo é relatado como 700 GB. Está disponível via API com um sistema único de "calibração de temperatura": o parâmetro padrão de 1.0 é ajustado automaticamente para um ótimo 0.3. Para implantação local, os desenvolvedores têm acesso a modelos de prompt modificados com suporte para pesquisa na web e análise de arquivos — um recurso anteriormente disponível apenas em soluções comerciais premium.

Especialistas preveem que o DeepSeek V3-0324 pode perturbar o mercado de assistentes de IA para programação e análise de dados. Sua disponibilidade como código aberto sob uma licença MIT abre a porta para personalização — desde automação de processos de negócios até a criação de assistentes científicos especializados.

    Sobre o autor
    Comentários0