HyperAIHyperAI

Command Palette

Search for a command to run...

vor 2 Monaten

Rekonstruktion und Ausrichtung verbessern einheitliche multimodale Modelle

Ji Xie Trevor Darrell Luke Zettlemoyer XuDong Wang

Rekonstruktion und Ausrichtung verbessern einheitliche multimodale Modelle

Abstract

Einheitliche multimodale Modelle (Unified Multimodal Models, UMMs) vereinen das visuelle Verständnis und die visuelle Generierung innerhalb einer einzigen Architektur. Allerdings beruht die herkömmliche Trainingsmethode auf Bild-Text-Paaren (bzw. -Sequenzen), deren Beschreibungen typischerweise spärlich sind und feinere visuelle Details vermissen – selbst dann, wenn sie Hunderte von Wörtern verwenden, um ein einfaches Bild zu beschreiben. Wir stellen Reconstruction Alignment (RecA) vor, eine ressourcensparende Nachtrainingsmethode, die visuelle Verständnis-Encoder-Embeddings als dichte „Text-Prompts“ nutzt, um reichhaltige Supervision ohne explizite Beschreibungen zu ermöglichen. Konkret bedingt RecA ein UMM mit seinen eigenen visuellen Verständnis-Embeddings und optimiert es, um das Eingabebild mittels einer selbstüberwachten Rekonstruktionsverlustfunktion wiederherzustellen, wodurch das Verständnis und die Generierung neu ausgerichtet werden. Trotz seiner Einfachheit ist RecA weit verbreitet anwendbar: In autoregressiven, maskierten autoregressiven sowie Diffusions-basierten UMMs verbessert sie konsistent die Qualität der Generierung und der Bearbeitung. Mit lediglich 27 GPU-Stunden Nachtraining erzielt RecA eine deutliche Steigerung der Bildgenerierungsleistung auf GenEval (von 0,73 auf 0,90) und DPGBench (von 80,93 auf 88,15), während gleichzeitig die Leistung auf Bearbeitungsbenchmarks steigt (ImgEdit von 3,38 auf 3,75; GEdit von 6,94 auf 7,25). Besonders hervorzuheben ist, dass RecA sogar deutlich größere Open-Source-Modelle übertrifft und sich breit über verschiedene UMM-Architekturen hinweg einsetzen lässt, wodurch es sich als effiziente und allgemeingültige Nachtrainingsstrategie zur Ausrichtung von UMMs etabliert.

KI mit KI entwickeln

Von der Idee bis zum Start — beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und den besten GPU-Preisen.

KI-Co-Coding
Sofort einsatzbereit GPUs
Beste Preise
Jetzt starten

Hyper Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp
Rekonstruktion und Ausrichtung verbessern einheitliche multimodale Modelle | Forschungsarbeiten | HyperAI