HyperAIHyperAI

Command Palette

Search for a command to run...

il y a 20 jours
DeepSeek
LLM
vLLM

DeepSeek V4 sur NVIDIA Blackwell

DeepSeek vient de lancer sa quatrième génération de modèles phares, DeepSeek-V4-Pro et DeepSeek-V4-Flash, conçus pour permettre une inférence ultra-efficace sur des contextes de plusieurs millions de tokens. Ces modèles s'appuient sur une architecture hybride innovante qui réduit considérablement les coûts de calcul et la consommation de mémoire, répondant ainsi aux besoins croissants des systèmes d'agents artificiels nécessitant de gérer de vastes quantités d'informations. Le modèle le plus puissant, le DeepSeek-V4-Pro, compte 1,6 trillion de paramètres au total avec 49 milliards de paramètres actifs. Il est spécialisé dans le raisonnement avancé, la génération de code et les agents gérant des contextes très longs. Sa variante, le DeepSeek-V4-Flash, plus compact avec 284 milliards de paramètres et 13 milliards actifs, est optimisée pour la vitesse et l'efficacité dans des tâches comme le résumé ou le routage. Les deux modèles partagent une fenêtre de contexte exceptionnelle pouvant atteindre un million de tokens, avec une capacité de sortie de jusqu'à 384 000 tokens. Cette capacité ouvre de nouvelles possibilités pour l'analyse de documents volumineux, le codage complexe et les workflows d'agents multi-étapes. L'architecture de la série V4 introduit une attention hybride combinant trois types de mécanismes pour optimiser le composant d'attention des transformateurs. Cette innovation permet de réduire de 73 % les opérations de calcul nécessaires par token et de diminuer de 90 % la charge de la mémoire tampon KV par rapport à la version précédente, le DeepSeek-V3. Cette amélioration est cruciale car les applications d'agents modernes doivent stocker non seulement des prompts, mais aussi des instructions système, des résultats d'outils, du code, des journaux et des traces de raisonnement sur plusieurs étapes. Pour soutenir ces exigences techniques élevées, NVIDIA propose une intégration native avec sa plateforme Blackwell. Des tests réalisés sur des serveurs GB200 NVL72 démontrent des performances supérieures à 150 tokens par seconde par utilisateur pour le modèle Pro en configuration standard. Les ingénieurs de NVIDIA ont également préparé des recettes d'inférence optimisées utilisant le framework vLLM et le moteur d'inférence SGLang. Ces outils permettent une mise en œuvre flexible, allant de déploiements à un seul nœud à des systèmes répartis sur plus de 100 GPUs, avec des profils ajustables pour la faible latence, le débit maximal ou la gestion spécialisée des contextes longs. Les développeurs peuvent désormais tester ces modèles via les points de terminaison accélérés par GPU d'NVIDIA sur la plateforme build.nvidia.com, ce qui facilite le prototypage avant un déploiement autonome. DeepSeek-V4 est également disponible gratuitement pour le téléchargement et le déploiement local via les services NIM d'NVIDIA, utilisant des schémas d'API familiers. La société met l'accent sur l'écosystème ouvert, encourageant l'expérimentation libre et le partage des travaux en matière de sécurité et de résilience de l'IA. Avec le lancement officiel de ces modèles, l'industrie se tourne vers une nouvelle ère où l'avantage concurrentiel réside dans la capacité à déployer et à mettre à l'échelle des modèles de pointe à un coût par token optimisé, transformant la sélection de modèles en une stratégie d'infrastructure robuste.

Liens associés

DeepSeek V4 sur NVIDIA Blackwell | Articles tendance | HyperAI