La quantification rencontre les dLLMs : une étude systématique de la quantification post-entraînement pour les modèles LLM de diffusion

Les progrès récents des modèles linguistiques à grande échelle à diffusion (dLLMs) ont ouvert la voie à une alternative prometteuse aux modèles linguistiques à grande échelle autoregressifs (AR LLMs) pour les tâches de génération de langage naturel, en exploitant des stratégies d’attention complète et une décodage fondé sur le débruitage. Toutefois, le déploiement de ces modèles sur des dispositifs embarqués reste difficile en raison de leur nombre massif de paramètres et de leurs exigences élevées en ressources. Bien que la quantification post-entraînement (PTQ) se soit imposée comme une technique largement adoptée pour compresser les AR LLMs, son application aux dLLMs reste largement inexplorée. Dans ce travail, nous présentons la première étude systématique sur la quantification des modèles linguistiques fondés sur la diffusion. Nous commençons par identifier la présence d’outliers d’activation, caractérisés par des valeurs d’activation anormalement élevées qui dominent la plage dynamique. Ces outliers posent un défi majeur à la quantification à faible précision, car ils rendent difficile la préservation de la précision pour la majorité des valeurs. Plus important encore, nous mettons en œuvre des méthodes de PTQ de pointe et menons une évaluation complète sur plusieurs types de tâches et variantes de modèles. Notre analyse s’articule autour de quatre dimensions clés : largeur de bits, méthode de quantification, catégorie de tâche et type de modèle. Grâce à cette évaluation multi-axée, nous offrons des perspectives pratiques sur le comportement de quantification des dLLMs sous différentes configurations. Nous espérons que nos résultats fourniront une base solide pour les recherches futures sur le déploiement efficace des dLLMs. Tous les codes source et les configurations expérimentales seront publiés afin de soutenir la communauté.