Command Palette
Search for a command to run...
SDAR : un paradigme synergique diffusion-auto-régressif pour la génération de séquences évolutives

Résumé
Nous proposons SDAR, un paradigme synergique de diffusion-autorégressif qui unit l'efficacité d'entraînement des modèles autorégressifs à la capacité d'inférence parallèle de la diffusion. Contrairement à l'entraînement end-to-end coûteux en ressources, SDAR effectue une conversion légère de paradigme, transformant un modèle autorégressif (AR) bien entraîné en un modèle de diffusion par blocs grâce à une adaptation brève et efficace en données. Lors de l'inférence, SDAR génère des séquences de manière autorégressive à travers les blocs afin d'assurer une cohérence globale, tout en décodant tous les tokens à l'intérieur de chaque bloc de façon parallèle via un processus de diffusion discrète. Des expériences étendues montrent que les modèles AR restent nettement plus efficaces en termes de ressources de calcul que les modèles de diffusion masquée, offrant ainsi une base solide pour l'adaptation. Partant de cette observation, SDAR permet une conversion efficace d'AR vers diffusion à coût minimal, tout en préservant les performances au niveau AR et en autorisant une génération parallèle. Des études d'échelle menées sur des architectures denses et des modèles Mixture-of-Experts (MoE) confirment que SDAR s'échelonne sans compromis : les modèles plus grands présentent une robustesse accrue vis-à-vis de la taille des blocs et des seuils de décodage, entraînant des accélérations plus importantes sans perte de précision. Au-delà de l'efficacité, SDAR démontre une capacité de raisonnement améliorée et une meilleure adaptabilité aux domaines. Notre modèle MoE de 30 milliards de paramètres surpasse son homologue autorégressif sur des benchmarks exigeants de raisonnement scientifique tels que GPQA et ChemBench, et obtient des gains supplémentaires grâce à des méthodes d'échelle au moment du test, comme le vote majoritaire ou pass@k. Ensemble, ces résultats établissent SDAR comme un paradigme pratique combinant les forces de l'autorégression et de la diffusion pour un raisonnement évolutif et à haut débit.
Construire l'IA avec l'IA
De l'idée au lancement — accélérez votre développement IA avec du co-codage IA gratuit, un environnement prêt à l'emploi et les meilleurs prix GPU.