HyperAIHyperAI

Command Palette

Search for a command to run...

il y a 13 jours

TiDAR : Pensez par diffusion, parlez par auto-régression

Jingyu Liu Xin Dong Zhifan Ye Rishabh Mehta Yonggan Fu Vartika Singh Jan Kautz Ce Zhang Pavlo Molchanov

TiDAR : Pensez par diffusion, parlez par auto-régression

Résumé

Les modèles de diffusion offrent la promesse d’une génération rapide en parallèle, tandis que les modèles auto-régressifs (AR) obtiennent généralement de meilleures performances en qualité, grâce à leur structure causale qui s’aligne naturellement sur le modèle de langage. Cela soulève une question fondamentale : pouvons-nous atteindre une synergie combinant un débit élevé, une utilisation optimisée des GPU et une qualité équivalente à celle des modèles AR ? Les méthodes existantes échouent à équilibrer efficacement ces deux aspects : soit elles privilégient le modèle AR en utilisant un modèle plus faible pour le brouillon séquentiel (décodage spéculatif), ce qui entraîne une faible efficacité du brouillon ; soit elles appliquent une logique de décodage de gauche à droite (similaire à AR) à la diffusion, ce qui entraîne une dégradation de la qualité et sacrifie le potentiel de parallélisation. Nous introduisons TiDAR, une architecture hybride au niveau de la séquence, qui brouillonne des tokens (pensée) via la diffusion et échantillonne les sorties finales (parole) de manière auto-régressive — tout cela en une seule passe forward, grâce à des masques d’attention structurés spécialement conçus. Ce design exploite la densité de calcul GPU gratuite, offrant un équilibre solide entre la capacité de brouillon et celle de vérification. De plus, TiDAR est conçue pour être facilement déployable (faible surcharge) en tant que modèle autonome. Nous évaluons de manière exhaustive TiDAR par rapport aux modèles AR, au décodage spéculatif et aux variantes de diffusion, sur des tâches de génération et de probabilité, à l’échelle de 1,5 milliard et 8 milliards de paramètres. Grâce au brouillon et à l’échantillonnage en parallèle, ainsi qu’au support exact du cache KV, TiDAR surpasse le décodage spéculatif en débit mesuré, et dépasse les modèles de diffusion tels que Dream et Llada en termes d’efficacité et de qualité. Notamment, TiDAR est la première architecture à combler l’écart de qualité par rapport aux modèles AR, tout en offrant un débit 4,71 à 5,91 fois supérieur en termes de tokens par seconde.

Construire l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec du co-codage IA gratuit, un environnement prêt à l'emploi et les meilleurs prix GPU.

Co-codage IA
GPU prêts à utiliser
Meilleurs prix
Commencer

Hyper Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp
TiDAR : Pensez par diffusion, parlez par auto-régression | Articles de recherche | HyperAI