Command Palette
Search for a command to run...
Rekonstruktion und Ausrichtung verbessern einheitliche multimodale Modelle
Ji Xie Trevor Darrell Luke Zettlemoyer XuDong Wang

Abstract
Einheitliche multimodale Modelle (Unified Multimodal Models, UMMs) vereinen das visuelle Verständnis und die visuelle Generierung innerhalb einer einzigen Architektur. Allerdings beruht die herkömmliche Trainingsmethode auf Bild-Text-Paaren (bzw. -Sequenzen), deren Beschreibungen typischerweise spärlich sind und feinere visuelle Details vermissen – selbst dann, wenn sie Hunderte von Wörtern verwenden, um ein einfaches Bild zu beschreiben. Wir stellen Reconstruction Alignment (RecA) vor, eine ressourcensparende Nachtrainingsmethode, die visuelle Verständnis-Encoder-Embeddings als dichte „Text-Prompts“ nutzt, um reichhaltige Supervision ohne explizite Beschreibungen zu ermöglichen. Konkret bedingt RecA ein UMM mit seinen eigenen visuellen Verständnis-Embeddings und optimiert es, um das Eingabebild mittels einer selbstüberwachten Rekonstruktionsverlustfunktion wiederherzustellen, wodurch das Verständnis und die Generierung neu ausgerichtet werden. Trotz seiner Einfachheit ist RecA weit verbreitet anwendbar: In autoregressiven, maskierten autoregressiven sowie Diffusions-basierten UMMs verbessert sie konsistent die Qualität der Generierung und der Bearbeitung. Mit lediglich 27 GPU-Stunden Nachtraining erzielt RecA eine deutliche Steigerung der Bildgenerierungsleistung auf GenEval (von 0,73 auf 0,90) und DPGBench (von 80,93 auf 88,15), während gleichzeitig die Leistung auf Bearbeitungsbenchmarks steigt (ImgEdit von 3,38 auf 3,75; GEdit von 6,94 auf 7,25). Besonders hervorzuheben ist, dass RecA sogar deutlich größere Open-Source-Modelle übertrifft und sich breit über verschiedene UMM-Architekturen hinweg einsetzen lässt, wodurch es sich als effiziente und allgemeingültige Nachtrainingsstrategie zur Ausrichtung von UMMs etabliert.
KI mit KI entwickeln
Von der Idee bis zum Start — beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und den besten GPU-Preisen.