DeepMind lance DiffusionGemma
Google a officiellement lancé récemment le modèle open-source expérimental DiffusionGemma, marquant un tournant majeur dans les paradigmes de génération des grands modèles de langage (LLM). Appartenant à la famille Gemma 4, ce modèle repose sur une architecture d'experts mélangés (MoE) sparse avec 26 milliards de paramètres, n'en activant que 3,8 lors de l'inférence. Contrairement aux générations auto-régressives traditionnelles mot par mot, DiffusionGemma transpose l'idée de diffusion d'image au domaine du texte : le modèle part de jetons aléatoires et traite en parallèle via plusieurs passes avant, générant directement 256 tokens à chaque étape jusqu'à converger vers un texte complet. Cette architecture résout radicalement les goulets d'étranglement en puissance de calcul pour l'inférence locale. Alors que les modèles classiques sont limités par la bande passante mémoire pour prédire caractère après caractère, entraînant une faible utilisation des GPU, DiffusionGemma concentre et libère la charge de calcul ; il atteint ainsi plus de 1000 tokens/seconde sur NVIDIA H100 et dépasse les 700 tokens/seconde sur RTX 5090, offrant un gain de vitesse global allant jusqu'à quatre fois. Grâce à son mécanisme d'attention bidirectionnelle, le modèle excelle particulièrement dans les tâches non linéaires telles que l'édition intra-ligne, le remplissage de code, la structure graphique mathématique et l'autocorrection en temps réel. Google souligne que DiffusionGemma est explicitement conçu pour le déploiement local et les scénarios à faible concurrence. Bien que la génération simultanée augmente considérablement la vitesse, la qualité globale de sortie reste légèrement inférieure à celle de Gemma 4 standard, ce qui rend le modèle inadapté aux services cloud nécessitant un débit élevé (haute QPS). Le modèle est publié sous licence Apache 2.0 et ne nécessite que 18 Go de VRAM lorsqu'il est quantifié. Il est pleinement compatible avec les frameworks populaires tels que vLLM, MLX et Hugging Face Transformers, et fait l'objet d'une optimisation approfondie pour l'architecture NVIDIA Blackwell et la précision NVFP4. Les développeurs peuvent dès maintenant récupérer les poids sur Hugging Face pour mener leurs expériences.
