HyperAI

L’équipe du Laboratoire d’Intelligence Artificielle de l’Université de Tsinghua (AIR), en collaboration avec le laboratoire SIA-Lab et ByteDance, a annoncé une avancée majeure dans le domaine des modèles de langage à grande échelle : Seed Diffusion Preview, un modèle basé sur le processus de diffusion, capable de générer plus de 2 146 tokens par seconde, dépassant ainsi les performances de Google Gemini Diffusion. Ce résultat représente une amélioration de 5,4 fois en vitesse par rapport aux modèles autoregressifs de taille comparable, tout en maintenant une qualité de génération équivalente ou supérieure sur plusieurs benchmarks, notamment dans des tâches complexes comme la génération et l’édition de code. Cette percée pourrait marquer une véritable révolution dans la conception des modèles de langage, en offrant une alternative efficace aux modèles autoregressifs traditionnels, limités par leur traitement séquentiel lent et leur faible capacité à intégrer une vision globale des tâches. Vers une nouvelle génération de modèles : la diffusion pour le langage Les modèles multimodaux (MLLMs) ont connu un essor fulgurant ces dernières années, passant de la description d’images à l’analyse de vidéos complexes. Mais une question fondamentale demeure : ces modèles comprennent-ils vraiment ce qu’ils « voient » ? Pour répondre à cette question, l’équipe de Liu Yang, directeur exécutif d’AIR, a développé EscapeCraft, un environnement de jeu 3D de type « escape room », conçu pour évaluer la capacité des modèles à raisonner de manière logique dans des scénarios visuels complexes. Les résultats ont été troublants : même des modèles de pointe comme GPT-4o ont échoué à plusieurs reprises, se déplaçant en cercle autour d’une porte sans la voir, ramassant une clé sans savoir comment l’utiliser, ou cherchant à « attraper » un canapé en pensant qu’il pourrait cacher un secret. Ces erreurs ne sont pas isolées : elles révèlent un problème systémique — voir n’équivaut pas à comprendre. Seed Diffusion Preview : une architecture révolutionnaire Face aux limites des modèles autoregressifs, l’équipe a exploré une piste prometteuse : la diffusion dans l’espace discret, une approche qui permet une génération parallèle et plus globale. Cependant, adapter la diffusion au langage — domaine à états discrets — soulève des défis fondamentaux : incompatibilité entre le processus de diffusion continu et les séquences discrètes, et difficultés à garantir la cohérence structurelle. Pour surmonter ces obstacles, Seed Diffusion Preview repose sur quatre innovations clés : Apprentissage par étapes (Two-stage curriculum learning) Une stratégie d’entraînement en deux phases permet au modèle d’apprendre d’abord à reconstruire les éléments manquants, puis à corriger globalement les erreurs, améliorant ainsi la cohérence globale. Intégration de préconnaissances structurées Le langage (et surtout le code) repose sur des dépendances causales fortes (ex. : une variable doit être déclarée avant d’être utilisée). L’équipe a introduit un entraînement contraint par ordre, en utilisant des trajectoires générées par un modèle pré-entraîné pour guider le modèle vers des séquences logiques, en évitant les erreurs de dépendance. Apprentissage avec stratégie commune (Same-policy learning) Cette approche vise à optimiser à la fois la vitesse et la qualité. Le modèle est entraîné pour minimiser le nombre d’étapes de génération tout en maintenant une sortie correcte, grâce à un modèle-validateur (V). Pour stabiliser l’entraînement, une fonction de perte proxy basée sur la distance d’édition entre étapes est utilisée, ce qui pousse le modèle à éliminer les chemins inefficaces — un phénomène similaire à la « filtration de modes » observée dans d’autres approches non autoregressives. Optimisation système : échantillonnage par blocs parallèles Une architecture de diffusion par blocs permet de générer des segments de texte en parallèle tout en maintenant l’ordre causal entre les blocs. L’utilisation du KV-caching permet de réutiliser les informations des blocs précédents, réduisant ainsi la latence. Une analyse fine de la taille des blocs a permis d’identifier le compromis optimal entre performance et latence. Résultats et perspectives Sur des benchmarks publics de génération de code, Seed Diffusion Preview atteint des performances équivalentes ou supérieures à celles des modèles autoregressifs de taille comparable, tout en offrant une vitesse de génération 5,4 fois plus élevée. En particulier, dans des tâches exigeant une planification globale (comme l’édition de code), ses performances dépassent celles des modèles traditionnels. Cette avancée ne se limite pas à la vitesse : elle ouvre la voie à une nouvelle génération de modèles capables de raisonnement structurel et global, essentiels pour des applications complexes comme la programmation, la planification stratégique ou la résolution de problèmes multi-étapes. En conclusion Seed Diffusion Preview ne se contente pas de battre des records de vitesse. Il réinvente la manière dont les modèles de langage peuvent raisonner et générer, en exploitant pleinement les avantages de la diffusion dans un cadre discret. Cette recherche marque une étape décisive vers un futur où les modèles ne se contentent plus de « deviner » la suite, mais construisent intelligemment et efficacement leurs réponses, en s’appuyant sur une compréhension globale et structurée du problème.

Seed Diffusion：每秒生成2146个词，清华与字节跳动联手颠覆语言模型生成范式

Related Links