Command Palette
Search for a command to run...
MMaDA-Parallel : Modèles Multimodaux de Diffusion de Langage de Grande Taille pour l'Édition et la Génération Conscientes de la Pensée

Résumé
Bien que la génération consciente de pensée vise à améliorer les performances sur des tâches complexes, nous identifions un mode critique d’échec où les approches séquentielles autoregressives existantes peuvent paradoxalement détériorer les performances en raison de la propagation des erreurs. Pour analyser systématiquement ce problème, nous proposons ParaBench, un nouveau benchmark conçu pour évaluer à la fois les modalités de sortie textuelle et visuelle. Notre analyse menée à l’aide de ParaBench révèle que cette dégradation des performances est fortement corrélée à un mauvais alignement entre le raisonnement généré et l’image finale. Pour résoudre ce problème, nous proposons un cadre parallèle multimodal à diffusion, MMaDA-Parallel, qui permet une interaction continue et bidirectionnelle entre texte et images tout au long de toute la trajectoire de débruitage. MMaDA-Parallel est entraîné par fine-tuning supervisé, puis optimisé ultérieurement par un nouveau mécanisme appelé Reinforcement Learning Parallèle (ParaRL), qui applique des récompenses sémantiques le long de la trajectoire afin de renforcer la cohérence entre modalités. Les expériences montrent que notre modèle améliore significativement l’alignement intermodal et la cohérence sémantique, atteignant une amélioration de 6,9 % en alignement de sortie sur ParaBench par rapport au modèle de l’état de l’art, Bagel, établissant ainsi un paradigme plus robuste pour la synthèse d’images conscientes de la pensée. Notre code est mis à disposition sous licence open-source à l’adresse suivante : https://github.com/tyfeld/MMaDA-Parallel
Construire l'IA avec l'IA
De l'idée au lancement — accélérez votre développement IA avec du co-codage IA gratuit, un environnement prêt à l'emploi et les meilleurs prix GPU.