vor 2 Tagen

Louis Bethune Victor Turrisi Bruno Kacper Mlodozeniec Pau Rodriguez Lopez Lokesh Boominathan Nikhil Bhendawade Amitis Shidani Joris Pelemans Theo X. Olausson Devon Hjelm

Zusammenfassung

Diskrete Diffusionsmodelle sind als starke Alternativen zu autoregressiven Sprachmodellen hervorgetreten, wobei kürzlich Ansätze vorgestellt wurden, die ein Basis-Modell mit einheitlicher Modalität initialisieren und für die Generierung von zwei Modalitäten feinabstimmen. Im Gegensatz zu früheren Ansätzen stellen wir hier erstmals ein dreimodales maskiertes Diffusionsmodell vor, das von Grund auf auf Text-, Bild-Text- und Audio-Text-Daten vortrainiert wurde. Wir analysieren systematisch multimodale Skalierungsgesetze, Mischverhältnisse zwischen Modalitäten, Rauschverläufe sowie Effekte der Batch-Größe und liefern optimierte Voreinstellungen für die Inferenz-Sampling-Prozesse. Unsere Analyse der Batch-Größe führt zu einer neuartigen, auf stochastischen Differentialgleichungen (SDE) basierenden Umparameterisierung, die die Notwendigkeit zur Feinabstimmung der optimalen Batch-Größe – wie sie in jüngeren Arbeiten berichtet wurde – überflüssig macht. Diese Umparameterisierung trennt die physische Batch-Größe, die üblicherweise aufgrund von Rechenressourcenbestimmungen gewählt wird (z. B. GPU-Auslastung, FLOP-Effizienz, Laufzeit), von der logischen Batch-Größe, die zur Ausbalancierung der Gradientenvarianz während der stochastischen Optimierung bestimmt wird. Schließlich präsentieren wir ein vorläufiges dreimodales Modell mit 3 Milliarden Parametern, das auf 6,4 Billionen Tokens vortrainiert wurde, wodurch die Leistungsfähigkeit eines einheitlichen Designs nachgewiesen wird und starke Ergebnisse sowohl bei der Textgenerierung als auch bei Text-zu-Bild- und Text-zu-Sprache-Aufgaben erzielt werden. Unser Werk stellt die bislang umfangreichste systematische offene Studie zu multimodalen diskreten Diffusionsmodellen dar und liefert wertvolle Erkenntnisse über das Skalierungsverhalten über mehrere Modalitäten hinweg.

Quell-PDF

KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren

Sofort einsatzbereite GPUs

Die besten Preise

Erste Schritte Preise anzeigen

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates

Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen

Unterstützt von MailChimp

vor 2 Tagen

Louis Bethune Victor Turrisi Bruno Kacper Mlodozeniec Pau Rodriguez Lopez Lokesh Boominathan Nikhil Bhendawade Amitis Shidani Joris Pelemans Theo X. Olausson Devon Hjelm

Zusammenfassung

Quell-PDF

KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren

Sofort einsatzbereite GPUs

Die besten Preise

Erste Schritte Preise anzeigen

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates

Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen

Unterstützt von MailChimp

vor 2 Tagen

Louis Bethune Victor Turrisi Bruno Kacper Mlodozeniec Pau Rodriguez Lopez Lokesh Boominathan Nikhil Bhendawade Amitis Shidani Joris Pelemans Theo X. Olausson Devon Hjelm

Zusammenfassung

Quell-PDF

KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren

Sofort einsatzbereite GPUs

Die besten Preise

Erste Schritte Preise anzeigen

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates

Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen

Unterstützt von MailChimp

Command Palette

Der Gestaltungsraum dreimodaler maskierter Diffusionsmodelle

Louis Bethune Victor Turrisi Bruno Kacper Mlodozeniec Pau Rodriguez Lopez Lokesh Boominathan Nikhil Bhendawade Amitis Shidani Joris Pelemans Theo X. Olausson Devon Hjelm14 more

Zusammenfassung

KI mit KI entwickeln

HyperAI Newsletters

Command Palette

Der Gestaltungsraum dreimodaler maskierter Diffusionsmodelle

Louis Bethune Victor Turrisi Bruno Kacper Mlodozeniec Pau Rodriguez Lopez Lokesh Boominathan Nikhil Bhendawade Amitis Shidani Joris Pelemans Theo X. Olausson Devon Hjelm14 more

Zusammenfassung

KI mit KI entwickeln

HyperAI Newsletters

Command Palette

Der Gestaltungsraum dreimodaler maskierter Diffusionsmodelle

Louis Bethune Victor Turrisi Bruno Kacper Mlodozeniec Pau Rodriguez Lopez Lokesh Boominathan Nikhil Bhendawade Amitis Shidani Joris Pelemans Theo X. Olausson Devon Hjelm14 more

Zusammenfassung

KI mit KI entwickeln

HyperAI Newsletters

Louis Bethune Victor Turrisi Bruno Kacper Mlodozeniec Pau Rodriguez Lopez Lokesh Boominathan Nikhil Bhendawade Amitis Shidani Joris Pelemans Theo X. Olausson Devon Hjelm

Louis Bethune Victor Turrisi Bruno Kacper Mlodozeniec Pau Rodriguez Lopez Lokesh Boominathan Nikhil Bhendawade Amitis Shidani Joris Pelemans Theo X. Olausson Devon Hjelm

Louis Bethune Victor Turrisi Bruno Kacper Mlodozeniec Pau Rodriguez Lopez Lokesh Boominathan Nikhil Bhendawade Amitis Shidani Joris Pelemans Theo X. Olausson Devon Hjelm