Command Palette
Search for a command to run...
Der Gestaltungsraum dreimodaler maskierter Diffusionsmodelle
Der Gestaltungsraum dreimodaler maskierter Diffusionsmodelle
Zusammenfassung
Diskrete Diffusionsmodelle sind als starke Alternativen zu autoregressiven Sprachmodellen hervorgetreten, wobei kürzlich Ansätze vorgestellt wurden, die ein Basis-Modell mit einheitlicher Modalität initialisieren und für die Generierung von zwei Modalitäten feinabstimmen. Im Gegensatz zu früheren Ansätzen stellen wir hier erstmals ein dreimodales maskiertes Diffusionsmodell vor, das von Grund auf auf Text-, Bild-Text- und Audio-Text-Daten vortrainiert wurde. Wir analysieren systematisch multimodale Skalierungsgesetze, Mischverhältnisse zwischen Modalitäten, Rauschverläufe sowie Effekte der Batch-Größe und liefern optimierte Voreinstellungen für die Inferenz-Sampling-Prozesse. Unsere Analyse der Batch-Größe führt zu einer neuartigen, auf stochastischen Differentialgleichungen (SDE) basierenden Umparameterisierung, die die Notwendigkeit zur Feinabstimmung der optimalen Batch-Größe – wie sie in jüngeren Arbeiten berichtet wurde – überflüssig macht. Diese Umparameterisierung trennt die physische Batch-Größe, die üblicherweise aufgrund von Rechenressourcenbestimmungen gewählt wird (z. B. GPU-Auslastung, FLOP-Effizienz, Laufzeit), von der logischen Batch-Größe, die zur Ausbalancierung der Gradientenvarianz während der stochastischen Optimierung bestimmt wird. Schließlich präsentieren wir ein vorläufiges dreimodales Modell mit 3 Milliarden Parametern, das auf 6,4 Billionen Tokens vortrainiert wurde, wodurch die Leistungsfähigkeit eines einheitlichen Designs nachgewiesen wird und starke Ergebnisse sowohl bei der Textgenerierung als auch bei Text-zu-Bild- und Text-zu-Sprache-Aufgaben erzielt werden. Unser Werk stellt die bislang umfangreichste systematische offene Studie zu multimodalen diskreten Diffusionsmodellen dar und liefert wertvolle Erkenntnisse über das Skalierungsverhalten über mehrere Modalitäten hinweg.