HyperAI

Les chercheurs de l'université de Californie à San Diego ont publié en février 2026 une nouvelle méthode d'inférence accélérée pour les grands modèles de langage, baptisée DFlash. Conçue spécifiquement pour les puces NVIDIA Blackwell et Hopper, cette solution open source répond à un enjeu majeur du déploiement de l'IA : réduire la latence tout en maximisant le débit lors de workflows multi-agents complexes. Les modèles génératifs produisent traditionnellement les jetons de sortie de manière séquentielle, ce qui limite l'utilisation des GPU et ralentit les services sensibles au temps réel. DFlash contourne cette limitation grâce au décodage spéculatif par diffusion de blocs. Au lieu de prédire les éléments un par un, un modèle léger de brouillon en propose un ensemble complet en une seule passe. Le modèle cible vérifie ensuite ces propositions en parallèle, conservant ainsi la qualité de sortie tout en accélérant considérablement la génération. Sur l'architecture NVIDIA Blackwell, DFlash affiche des gains de performance exceptionnels. Pour le modèle gpt-oss-120b, le débit peut être multiplié par 15 à latence constante par rapport au décodage classique. Il double également l'interactivité pour des architectures plus légères comme Llama 3.1 8B, dépassant les performances de méthodes existantes comme EAGLE-3. Ces améliorations permettent de servir simultanément un nombre nettement plus élevé d'utilisateurs, un atout crucial pour les applications interactives telles que la génération de code ou l'exécution d'agents autonomes. L'adoption de DFlash est facilitée par son intégration transparente dans l'écosystème NVIDIA. Vingt modèles pré-entraînés sont désormais disponibles sur Hugging Face, accompagnés de configurations optimisées. Les développeurs peuvent activer l'optimisation directement via des frameworks populaires comme vLLM, SGLang et TensorRT-LLM, sans nécessiter de refonte du code applicatif. Sur vLLM, il suffit de modifier un paramètre de configuration pour remplacer les anciens brouilleurs par ceux de DFlash. SGLang et TensorRT-LLM offrent des chemins de migration équivalents, assurant une déployabilité immédiate. En exposant davantage de calculs parallèles aux cœurs Tensor de cinquième génération de NVIDIA, DFlash compense les goulots d'étranglement liés au transfert de mémoire et à la génération séquentielle. Validée sur plusieurs jeux de données couvrant les mathématiques, le code, la raison et la rédaction, cette avancée marque un pas significatif vers une inférence IA plus efficace. Les équipes de production pourront ainsi répondre aux exigences croissantes en simultanéité et en réactivité des systèmes intelligents modernes.

Liens associés

Liens associés

Liens associés

Tutoriel En Ligne | UC Berkeley/NVIDIA Et d'autres Publient Gsplat, Une Bibliothèque 3DGS open-source Qui Économise 4 Fois La Mémoire GPU Et Réduit Le Temps d'entraînement De 10%.

Tutoriel En Ligne | UC Berkeley/NVIDIA Et d'autres Publient Gsplat, Une Bibliothèque 3DGS open-source Qui Économise 4 Fois La Mémoire GPU Et Réduit Le Temps d'entraînement De 10%.

Command Palette

DFlash accélère l'inférence IA de 15x sur NVIDIA Blackwell

Liens associés

Command Palette

DFlash accélère l'inférence IA de 15x sur NVIDIA Blackwell

Liens associés

Command Palette

DFlash accélère l'inférence IA de 15x sur NVIDIA Blackwell

Liens associés

Tutoriel En Ligne | UC Berkeley/NVIDIA Et d'autres Publient Gsplat, Une Bibliothèque 3DGS open-source Qui Économise 4 Fois La Mémoire GPU Et Réduit Le Temps d'entraînement De 10%.

Tutoriel En Ligne | UC Berkeley/NVIDIA Et d'autres Publient Gsplat, Une Bibliothèque 3DGS open-source Qui Économise 4 Fois La Mémoire GPU Et Réduit Le Temps d'entraînement De 10%.