HyperAI

MMaDA: Multimodales Großes Diffuses Sprachmodell

1. Einführung in das Tutorial

Bauen

MMaDA-8B-Base ist ein multimodales Diffusionsmodell für große Sprachen, das gemeinsam von der Princeton University, dem ByteDance Seed Team, der Peking University und der Tsinghua University entwickelt und am 23. Mai 2025 veröffentlicht wurde. Dieses Modell ist die erste systematische Erforschung der Diffusionsarchitektur als einheitliches Modell eines multimodalen Basisparadigmas. Ziel ist es, durch die tiefe Integration von Textschlussfolgerung, multimodalem Verständnis und Bildgenerierung allgemeine Intelligenzfähigkeiten für modalübergreifende Aufgaben zu erreichen. Die Ergebnisse der Studie sind:MMaDA: Multimodale Sprachmodelle mit großer Verbreitung".

Die Rechenressourcen dieses Tutorials nutzen eine einzelne A6000-Karte. Das in diesem Tutorial eingesetzte Modell ist MMaDA-8B-Base. Drei Beispiele für Textgenerierung, multimodales Verständnis und Text-zu-Bild-Generierung stehen zum Testen zur Verfügung.

2. Effektanzeige

MMaDA-Dekodierungsdemo

Dekodierungsdemo von MMaDA. Dieses Video zeigt, wie man mithilfe des Diffusionsbasismodells Text und Bilder generiert.
Der Teil „Textgenerierung“ verwendet eine semi-autoregressive Sampling-Methode, während der Teil „multimodale Generierung“ eine nicht-autoregressive Diffusions-Rauschunterdrückung verwendet.

3. Bedienungsschritte

1. Starten Sie den Container

Wenn „Bad Gateway“ angezeigt wird, bedeutet dies, dass das Modell initialisiert wird. Da das Modell groß ist, warten Sie bitte etwa 2–3 Minuten und aktualisieren Sie die Seite.

2. Anwendungsschritte

1. Textgenerierung

Spezifische Parameter:

  • Eingabeaufforderung: Hier können Sie Text eingeben.
  • Generierungslänge: Die Anzahl der generierten Token.
  • Gesamtzahl der Sampling-Schritte: Muss durch (Gen_Länge / Block_Länge) teilbar sein.
  • Blocklänge: gen_length muss durch diese Zahl teilbar sein.
  • Remaskierungsstrategie: Remaskierungsstrategie.
  • CFG-Skala: Kein Klassifikatorleitfaden. 0 deaktiviert ihn.
  • Temperatur: Steuert die Zufälligkeit über Gumbel-Rauschen. 0 ist deterministisch.

Ergebnis 

2. Multimodales Verständnis

Spezifische Parameter:

  • Eingabeaufforderung: Hier können Sie Text eingeben.
  • Generierungslänge: Die Anzahl der generierten Token.
  • Gesamtzahl der Sampling-Schritte: Muss durch (Gen_Länge / Block_Länge) teilbar sein.
  • Blocklänge: gen_length muss durch diese Zahl teilbar sein.
  • Remaskierungsstrategie: Remaskierungsstrategie.
  • CFG-Skala: Kein Klassifikatorleitfaden. 0 deaktiviert ihn.
  • Temperatur: Steuert die Zufälligkeit über Gumbel-Rauschen. 0 ist deterministisch.
  • Bild: Bild.

Ergebnis 

3. Text-zu-Bild-Generierung

Spezifische Parameter:

  • Eingabeaufforderung: Hier können Sie Text eingeben.
  • Gesamtzahl der Sampling-Schritte: Muss durch (Gen_Länge / Block_Länge) teilbar sein.
  • Anleitungsskala: Keine Klassifikatoranleitung. 0 deaktiviert sie.
  • Planer:
    • Cosinus: Die Cosinus-Ähnlichkeit berechnet die Ähnlichkeit von Satzpaaren und optimiert die Einbettungsvektoren.
    • Sigmoid: Multi-Label-Klassifizierung.
    • Linear: Die lineare Ebene bildet den Einbettungsvektor des Bildpatches zur Aufmerksamkeitsberechnung auf eine höhere Dimension ab.

Ergebnis 

4. Diskussion

🖌️ Wenn Sie ein hochwertiges Projekt sehen, hinterlassen Sie bitte im Hintergrund eine Nachricht, um es weiterzuempfehlen! Darüber hinaus haben wir auch eine Tutorien-Austauschgruppe ins Leben gerufen. Willkommen, Freunde, scannen Sie den QR-Code und kommentieren Sie [SD-Tutorial], um der Gruppe beizutreten, verschiedene technische Probleme zu besprechen und Anwendungsergebnisse auszutauschen ↓

Zitationsinformationen

Dank an den Github-Benutzer SuperYang  Bereitstellung dieses Tutorials. Die Zitationsinformationen für dieses Projekt lauten wie folgt:

@article{yang2025mmada,
  title={MMaDA: Multimodal Large Diffusion Language Models},
  author={Yang, Ling and Tian, Ye and Li, Bowen and Zhang, Xinchen and Shen, Ke and Tong, Yunhai and Wang, Mengdi},
  journal={arXiv preprint arXiv:2505.15809},
  year={2025}
}