HyperAIHyperAI

Command Palette

Search for a command to run...

il y a 2 jours

SDAR : un paradigme synergique diffusion-auto-régressif pour la génération de séquences évolutives

SDAR : un paradigme synergique diffusion-auto-régressif pour la génération de séquences évolutives

Résumé

Nous proposons SDAR, un paradigme synergique de diffusion-autorégressif qui unit l'efficacité d'entraînement des modèles autorégressifs à la capacité d'inférence parallèle de la diffusion. Contrairement à l'entraînement end-to-end coûteux en ressources, SDAR effectue une conversion légère de paradigme, transformant un modèle autorégressif (AR) bien entraîné en un modèle de diffusion par blocs grâce à une adaptation brève et efficace en données. Lors de l'inférence, SDAR génère des séquences de manière autorégressive à travers les blocs afin d'assurer une cohérence globale, tout en décodant tous les tokens à l'intérieur de chaque bloc de façon parallèle via un processus de diffusion discrète. Des expériences étendues montrent que les modèles AR restent nettement plus efficaces en termes de ressources de calcul que les modèles de diffusion masquée, offrant ainsi une base solide pour l'adaptation. Partant de cette observation, SDAR permet une conversion efficace d'AR vers diffusion à coût minimal, tout en préservant les performances au niveau AR et en autorisant une génération parallèle. Des études d'échelle menées sur des architectures denses et des modèles Mixture-of-Experts (MoE) confirment que SDAR s'échelonne sans compromis : les modèles plus grands présentent une robustesse accrue vis-à-vis de la taille des blocs et des seuils de décodage, entraînant des accélérations plus importantes sans perte de précision. Au-delà de l'efficacité, SDAR démontre une capacité de raisonnement améliorée et une meilleure adaptabilité aux domaines. Notre modèle MoE de 30 milliards de paramètres surpasse son homologue autorégressif sur des benchmarks exigeants de raisonnement scientifique tels que GPQA et ChemBench, et obtient des gains supplémentaires grâce à des méthodes d'échelle au moment du test, comme le vote majoritaire ou pass@k. Ensemble, ces résultats établissent SDAR comme un paradigme pratique combinant les forces de l'autorégression et de la diffusion pour un raisonnement évolutif et à haut débit.

Construire l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec du co-codage IA gratuit, un environnement prêt à l'emploi et les meilleurs prix GPU.

Co-codage IA
GPU prêts à utiliser
Meilleurs prix
Commencer

Hyper Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp
SDAR : un paradigme synergique diffusion-auto-régressif pour la génération de séquences évolutives | Articles de recherche | HyperAI