HyperAIHyperAI
vor 13 Tagen

JanusFlow: Die Harmonisierung von Autoregression und rectified Flow für eine integrierte multimodale Verständnis- und Generierung

Yiyang Ma, Xingchao Liu, Xiaokang Chen, Wen Liu, Chengyue Wu, Zhiyu Wu, Zizheng Pan, Zhenda Xie, Haowei Zhang, Xingkai yu, Liang Zhao, Yisong Wang, Jiaying Liu, Chong Ruan
JanusFlow: Die Harmonisierung von Autoregression und rectified Flow für eine integrierte multimodale Verständnis- und Generierung
Abstract

Wir präsentieren JanusFlow, einen leistungsfähigen Rahmen, der Bildverstehen und Bildgenerierung in einem einzigen Modell vereint. JanusFlow führt eine minimalistische Architektur ein, die autoregressive Sprachmodelle mit Rectified Flow – einer state-of-the-art-Methode im Bereich der generativen Modellierung – integriert. Unser zentraler Erkenntnispunkt zeigt, dass Rectified Flow nahtlos innerhalb des Rahmens großer Sprachmodelle trainiert werden kann, wodurch komplexe architektonische Anpassungen entfallen. Um die Leistung unseres vereinheitlichten Modells weiter zu verbessern, setzen wir zwei Schlüsselstrategien ein: (i) die Entkopplung von Verstehens- und Generierungs-Encodern sowie (ii) die Ausrichtung ihrer Repräsentationen während des gemeinsamen Trainings. Umfangreiche Experimente belegen, dass JanusFlow vergleichbare oder überlegene Leistung gegenüber spezialisierten Modellen in ihren jeweiligen Domänen erzielt und gleichzeitig bestehende vereinheitlichte Ansätze auf Standardbenchmarks deutlich übertrifft. Diese Arbeit stellt einen Schritt hin zu effizienteren und vielseitigeren vision-sprachlichen Modellen dar.

JanusFlow: Die Harmonisierung von Autoregression und rectified Flow für eine integrierte multimodale Verständnis- und Generierung | Neueste Forschungsarbeiten | HyperAI