il y a un mois

Fast-dLLM v2 : Modèle LLM à diffusion par blocs efficace

Chengyue Wu Hao Zhang Shuchen Xue Shizhe Diao Yonggan Fu Zhijian Liu Pavlo Molchanov Ping Luo Song Han Enze Xie

Résumé

Les modèles linguistiques à grande échelle (LLM) autoregressifs (AR) ont atteint des performances remarquables sur un large éventail de tâches du langage naturel, mais leur décodage séquentiel inhérent limite l'efficacité du processus d'inférence. Dans ce travail, nous proposons Fast-dLLM v2, un modèle linguistique par diffusion par blocs (dLLM) soigneusement conçu, qui permet d'adapter efficacement des modèles AR préentraînés en dLLM pour une génération de texte parallèle, en nécessitant uniquement environ 1 milliard de tokens pour le fine-tuning. Cette approche représente une réduction de 500 fois du volume de données d'entraînement par rapport aux dLLM à attention complète tels que Dream (580 milliards de tokens), tout en préservant les performances du modèle original. Notre méthode introduit une nouvelle recette d'entraînement combinant un mécanisme de diffusion par blocs avec un masque d'attention complémentaire, permettant une modélisation contextuelle bidirectionnelle par blocs sans compromettre les objectifs d'entraînement AR. Pour accélérer davantage le décodage, nous avons conçu un mécanisme hiérarchique de mise en cache : un cache au niveau des blocs, qui stocke les représentations contextuelles historiques à travers les blocs, et un cache sous-bloc, qui permet une génération parallèle efficace au sein des blocs partiellement décodés. Associé à notre pipeline de décodage parallèle, Fast-dLLM v2 atteint une accélération allant jusqu'à 2,5 fois par rapport au décodage AR standard, sans compromettre la qualité de génération. Des expérimentations étendues sur diverses benchmarks démontrent que Fast-dLLM v2 égale ou dépasse les modèles de base AR en précision, tout en offrant une efficacité au niveau de l'état de l'art parmi les dLLM — marquant ainsi une avancée significative vers le déploiement pratique de LLM rapides et précis. Le code source et les modèles seront publiés publiquement.

Construire l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec du co-codage IA gratuit, un environnement prêt à l'emploi et les meilleurs prix GPU.

Co-codage IA

GPU prêts à utiliser

Meilleurs prix

Commencer

Hyper Newsletters

Abonnez-vous à nos dernières mises à jour

Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin

Propulsé par MailChimp

Command Palette

Fast-dLLM v2 : Modèle LLM à diffusion par blocs efficace

Chengyue Wu Hao Zhang Shuchen Xue Shizhe Diao Yonggan Fu Zhijian Liu Pavlo Molchanov Ping Luo Song Han Enze Xie

Résumé

Construire l'IA avec l'IA

Hyper Newsletters