Google DeepMind : Comment Gemini Diffusion pourrait révolutionner le déploiement des modèles de langage grâce à l'approche par diffusion
Google DeepMind présente Gemini Diffusion : une approche basée sur la diffusion pour générer du texte rapidement et précisément Le 13 juin 2025, Google DeepMind a mis en lumière son modèle expérimental de langage, Gemini Diffusion, lors d’une suite complète d’outils et d’innovations en intelligence artificielle. Cette nouvelle génération de modèles de langage (LLMs) se distingue par son utilisation d’une méthode de diffusion, contrairement aux méthodes traditionnelles d’autorégression. Comprendre la différence entre la diffusion et l’autorégression Autorégression L’autorégression, la méthode utilisée par les LLMs comme GPT, genère du texte de manière séquentielle. Chaque mot est prédit en fonction des mots précédents, ce qui garantit une forte cohérence et suit fidèlement le contexte. Cependant, cette méthode peut être très intensive en ressources et lente, surtout pour des contenus longs. Diffusion La méthode de diffusion commence avec un bruit aléatoire et procède à sa dénoyageprogressif pour arriver à un texte cohérent. Dans le cas du langage, la diffusion permet le traitement parallèle de blocs entiers de texte, accélérant ainsi considérablement la génération. Elle offre également la possibilité de corriger les erreurs au fur et à mesure, améliorant la précision et réduisant les hallucinations. Bien que le contrôle au niveau des tokens puisse être moins précis, la vitesse de génération représente un avantage majeur pour de nombreuses applications. Fonctionnement de la génération de texte par diffusion Étape 1 : Diffusion Avant Pendant l’entraînement, la diffusion avant consiste à ajouter progressivement du bruit à chaque échantillon de la base de données jusqu'à ce qu'il devienne indiscernable. Ce processus peut impliquer 500 à 1,000 étapes de bruitage. Étape 2 : Diffusion Inverse Le modèle apprend ensuite à inverser ce processus, c’est-à-dire à dénoyer progressivement une phrase corrompue. Il effectue cette tâche étape par étape, jusqu'à restaurer la structure originale. Cela implique des injections de conditions (comme une invite, un label de classe ou un embedding) pour guider la génération vers des résultats spécifiques. Avantages et inconvénients de la méthode de diffusion Avantages - Vitesse de Génération: Gemini Diffusion peux créer 1,000 à 2,000 tokens par seconde, contre 272,4 tokens pour Gemini 2,5 Flash. - Correction Continue: La capacité à réviser et corriger les erreurs pendant le processus de dénoyage. - Performances En coding et Raisonnement: Supérieures dans les domaines nécessitant une consistance globale, comme la programmation. Inconvénients - Coût de Déploiement Élevé: Plus coûteuse que les modèles autorégressifs en termes de ressources. - Temps à la Première Token (TTFT): Plus long que l’autorégression car tous les tokens doivent être prêts avant l'obtention du premier. Performances et Tests Google a comparé les performances de Gemini Diffusion à celles de Gemini 2,0 Flash-Lite à l'aide de divers benchmarks. Les résultats montrent que Gemini Diffusion a des performances similaires en codage et en mathématiques, mais est légèrement moins performant en raison, en connaissances scientifiques, et en capacités multilingues. Benchmarks Comparatifs - LiveCodeBench (v6): 30,9% vs 28,5% - BigCodeBench: 45,4% vs 45,8% - LBPP (v2): 56,8% vs 56,0% - SWE-Bench Verified: 22,9% vs 28,5% - HumanEval: 89,6% vs 90,2% - MBPP: 76,0% vs 75,8% - GPQA Diamond: 40,4% vs 56,5% - AIME 2025: 23,3% vs 20,0% - BIG-Bench Extra Hard: 15,0% vs 21,0% - Global MMLU (Lite): 69,1% vs 79,0% Bien que l’écart en termes de performance semble limité pour le moment, Brendan O’Donoghue, chercheur chez Google DeepMind, estime que la diffusion pourrait avoir un avantage spécifique dans certains domaines où la cohérence non-locale est importante. Expérience Pratique avec Gemini Diffusion VentureBeat a eu l'opportunité de tester le modèle expérimental. La première impression était la rapidité : les requêtes fournies par Google, notamment pour la création d’interfaces HTML interactives (Xylophone et Planet Tac Toe), ont été traitées en moins de trois secondes, générant 600 à 1,300 tokens par seconde. Pour un test concret, l’application a été sollicitée pour créer une interface de chat vidéo avec des fonctions précises : une fenêtre de prévisualisation qui accède à la caméra du dispositif, et une jauge de niveau sonore mesurant les entrées du microphone en temps réel. L’interface fonctionnelle a été créée en moins de deux secondes, bien que ce ne soit pas une implémentation complexe. Cette vitesse pourrait être très utile pour le développement rapide de prototypes fonctionnels. Gemini Diffusion intègre également une fonction "Instant Edit", permettant des modifications en temps réel de texte ou de code avec des incitations minimales. Ceci est particulièrement efficace pour des tâches comme la correction grammaticale, l’adaptation des textes à différents profils de lecteurs, ou l’amélioration du référencement. Pour le code, cette fonction aide à la refactorisation, l'ajout de nouvelle fonctionnalités, et même à la conversion de bases de code existantes vers d'autres langages. Applications Économiques des Modèles de Diffusion Les modèles de diffusion seront particulièrement bénéfiques pour les applications nécessitant des réponses en temps réel, telles que l'IA conversationnelle, les chatbots, la transcription et la traduction en direct, ou les assistants de codage et les IDE. Brendan O’Donoghue souligne que l’"editing inline", qui permet des modifications directes et en place, offre des possibilités que l’autorégression ne peut pas assurer. De plus, la diffusion est plus adaptée aux problèmes de raisonnement, de mathématiques et de codage car elle offre une attention bidirectionnelle, facilitant une meilleure consistance globale. Perspectives et Influence dans l’Industrie Gemini Diffusion s’inscrit dans le paysage croissant des modèles de diffusion. Par exemple, Mercury, développé par Inception Labs, et LLaDa, un modèle open-source de GSAI, sont également en développement. Ces modèles représentent une avancée significative en offrant une alternative scalable et parallélisable aux architectures traditionnelles d'autorégression. Des professionnels de l’industrie estiment que la diffusion pourrait redéfinir la façon dont les LLMs sont déployés, grâce à ses performances exceptionnelles en termes de vitesse et de cohérence, ainsi qu'à son potentiel d’amélioration constante. Google DeepMind, connu pour son expertise en IA et ses contributions révolutionnaires, continue de jouer un rôle majeur dans l'évolution technologies linguistiques, en proposant des solutions plus rapides et plus précises. En résumé, Gemini Diffusion illustre la transition vers une nouvelle ère de-generation des textes, où la rapidité, la flexibilité et la cohérence jouent des rôles cruciaux. Bien que le coût et les latences initiales puissent être des obstacles, les avantages potentiels en termes de performance et d’applications pratiques justifient pleinement l’intérêt accru pour cette technologie innovante.