HyperAI

MMaDA : Modèle De Langage Diffus Multimodal À Grande Échelle

1. Introduction au tutoriel

Construire

MMaDA-8B-Base est un modèle de langage multimodal de diffusion à grande échelle, développé conjointement par l'Université de Princeton, l'équipe ByteDance Seed, l'Université de Pékin et l'Université Tsinghua, et publié le 23 mai 2025. Ce modèle constitue la première exploration systématique de l'architecture de diffusion comme modèle unifié de paradigme multimodal de base, visant à développer des capacités d'intelligence générale pour les tâches intermodales grâce à l'intégration approfondie du raisonnement textuel, de la compréhension multimodale et de la génération d'images. Les résultats de l'article sont les suivants :MMaDA : Modèles de langage multimodaux à grande diffusion".

Les ressources informatiques de ce tutoriel utilisent une seule carte A6000, et le modèle déployé est MMaDA-8B-Base. Trois exemples de génération de texte, de compréhension multimodale et de conversion de texte en image sont fournis à des fins de test.

2. Affichage des effets

Démonstration de décodage MMaDA

Démo de décodage de MMaDA. Cette vidéo montre comment générer du texte et des images à l'aide du modèle de diffusion.
La partie « génération de texte » utilise une méthode d'échantillonnage semi-autorégressive, tandis que la partie « génération multimodale » utilise un débruitage par diffusion non autorégressif.

3. Étapes de l'opération

1. Démarrez le conteneur

Si « Bad Gateway » s'affiche, cela signifie que le modèle est en cours d'initialisation. Étant donné que le modèle est grand, veuillez patienter environ 2 à 3 minutes et actualiser la page.

2. Étapes d'utilisation

1. Génération de texte

Paramètres spécifiques :

  • Invite : Vous pouvez saisir du texte ici.
  • Durée de génération : le nombre de jetons générés.
  • Nombre total d'étapes d'échantillonnage : doit être divisible par (gen_length / block_length).
  • Longueur du bloc : gen_length doit être divisible par ce nombre.
  • Stratégie de remasquage : Stratégie de remasquage.
  • Échelle CFG : aucun guide de classification. 0 le désactive.
  • Température : Contrôle le caractère aléatoire via le bruit de Gumbel. 0 est déterministe.

résultat 

2. Compréhension multimodale

Paramètres spécifiques :

  • Invite : Vous pouvez saisir du texte ici.
  • Durée de génération : le nombre de jetons générés.
  • Nombre total d'étapes d'échantillonnage : doit être divisible par (gen_length / block_length).
  • Longueur du bloc : gen_length doit être divisible par ce nombre.
  • Stratégie de remasquage : Stratégie de remasquage.
  • Échelle CFG : aucun guide de classification. 0 le désactive.
  • Température : Contrôle le caractère aléatoire via le bruit de Gumbel. 0 est déterministe.
  • Image : photo.

résultat 

3. Génération de texte en image

Paramètres spécifiques :

  • Invite : Vous pouvez saisir du texte ici.
  • Nombre total d'étapes d'échantillonnage : doit être divisible par (gen_length / block_length).
  • Échelle de guidage : aucune orientation du classificateur. 0 le désactive.
  • Planificateur :
    • cosinus : La similarité cosinus calcule la similarité des paires de phrases et optimise les vecteurs d'intégration.
    • sigmoïde : classification multi-étiquettes.
    • Linéaire : la couche linéaire mappe le vecteur d'intégration du patch d'image à une dimension supérieure pour le calcul de l'attention.

résultat 

4. Discussion

🖌️ Si vous voyez un projet de haute qualité, veuillez laisser un message en arrière-plan pour le recommander ! De plus, nous avons également créé un groupe d’échange de tutoriels. Bienvenue aux amis pour scanner le code QR et commenter [Tutoriel SD] pour rejoindre le groupe pour discuter de divers problèmes techniques et partager les résultats de l'application↓

Informations sur la citation

Merci à l'utilisateur Github SuperYang  Déploiement de ce tutoriel. Les informations de citation pour ce projet sont les suivantes :

@article{yang2025mmada,
  title={MMaDA: Multimodal Large Diffusion Language Models},
  author={Yang, Ling and Tian, Ye and Li, Bowen and Zhang, Xinchen and Shen, Ke and Tong, Yunhai and Wang, Mengdi},
  journal={arXiv preprint arXiv:2505.15809},
  year={2025}
}