HyperAIHyperAI

Command Palette

Search for a command to run...

Der Gestaltungsraum dreimodaler maskierter Diffusionsmodelle

Zusammenfassung

Diskrete Diffusionsmodelle sind als starke Alternativen zu autoregressiven Sprachmodellen hervorgetreten, wobei kürzlich Ansätze vorgestellt wurden, die ein Basis-Modell mit einheitlicher Modalität initialisieren und für die Generierung von zwei Modalitäten feinabstimmen. Im Gegensatz zu früheren Ansätzen stellen wir hier erstmals ein dreimodales maskiertes Diffusionsmodell vor, das von Grund auf auf Text-, Bild-Text- und Audio-Text-Daten vortrainiert wurde. Wir analysieren systematisch multimodale Skalierungsgesetze, Mischverhältnisse zwischen Modalitäten, Rauschverläufe sowie Effekte der Batch-Größe und liefern optimierte Voreinstellungen für die Inferenz-Sampling-Prozesse. Unsere Analyse der Batch-Größe führt zu einer neuartigen, auf stochastischen Differentialgleichungen (SDE) basierenden Umparameterisierung, die die Notwendigkeit zur Feinabstimmung der optimalen Batch-Größe – wie sie in jüngeren Arbeiten berichtet wurde – überflüssig macht. Diese Umparameterisierung trennt die physische Batch-Größe, die üblicherweise aufgrund von Rechenressourcenbestimmungen gewählt wird (z. B. GPU-Auslastung, FLOP-Effizienz, Laufzeit), von der logischen Batch-Größe, die zur Ausbalancierung der Gradientenvarianz während der stochastischen Optimierung bestimmt wird. Schließlich präsentieren wir ein vorläufiges dreimodales Modell mit 3 Milliarden Parametern, das auf 6,4 Billionen Tokens vortrainiert wurde, wodurch die Leistungsfähigkeit eines einheitlichen Designs nachgewiesen wird und starke Ergebnisse sowohl bei der Textgenerierung als auch bei Text-zu-Bild- und Text-zu-Sprache-Aufgaben erzielt werden. Unser Werk stellt die bislang umfangreichste systematische offene Studie zu multimodalen diskreten Diffusionsmodellen dar und liefert wertvolle Erkenntnisse über das Skalierungsverhalten über mehrere Modalitäten hinweg.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp