HyperAIHyperAI

Command Palette

Search for a command to run...

il y a 7 jours

MMaDA-Parallel : Modèles Multimodaux de Diffusion de Langage de Grande Taille pour l'Édition et la Génération Conscientes de la Pensée

MMaDA-Parallel : Modèles Multimodaux de Diffusion de Langage de Grande Taille pour l'Édition et la Génération Conscientes de la Pensée

Résumé

Bien que la génération consciente de pensée vise à améliorer les performances sur des tâches complexes, nous identifions un mode critique d’échec où les approches séquentielles autoregressives existantes peuvent paradoxalement détériorer les performances en raison de la propagation des erreurs. Pour analyser systématiquement ce problème, nous proposons ParaBench, un nouveau benchmark conçu pour évaluer à la fois les modalités de sortie textuelle et visuelle. Notre analyse menée à l’aide de ParaBench révèle que cette dégradation des performances est fortement corrélée à un mauvais alignement entre le raisonnement généré et l’image finale. Pour résoudre ce problème, nous proposons un cadre parallèle multimodal à diffusion, MMaDA-Parallel, qui permet une interaction continue et bidirectionnelle entre texte et images tout au long de toute la trajectoire de débruitage. MMaDA-Parallel est entraîné par fine-tuning supervisé, puis optimisé ultérieurement par un nouveau mécanisme appelé Reinforcement Learning Parallèle (ParaRL), qui applique des récompenses sémantiques le long de la trajectoire afin de renforcer la cohérence entre modalités. Les expériences montrent que notre modèle améliore significativement l’alignement intermodal et la cohérence sémantique, atteignant une amélioration de 6,9 % en alignement de sortie sur ParaBench par rapport au modèle de l’état de l’art, Bagel, établissant ainsi un paradigme plus robuste pour la synthèse d’images conscientes de la pensée. Notre code est mis à disposition sous licence open-source à l’adresse suivante : https://github.com/tyfeld/MMaDA-Parallel

Construire l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec du co-codage IA gratuit, un environnement prêt à l'emploi et les meilleurs prix GPU.

Co-codage IA
GPU prêts à utiliser
Meilleurs prix
Commencer

Hyper Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp
MMaDA-Parallel : Modèles Multimodaux de Diffusion de Langage de Grande Taille pour l'Édition et la Génération Conscientes de la Pensée | Articles de recherche | HyperAI