OmniGen2: Vom Erkunden zur fortgeschrittenen multimodalen Generierung

In dieser Arbeit stellen wir OmniGen2 vor, ein vielseitiges und quelloffenes Generiermodell, das entwickelt wurde, um eine einheitliche Lösung für verschiedene Generierungsaufgaben zu bieten, darunter Text-zu-Bild-Generierung, Bildbearbeitung und kontextbasierte Generierung. Im Gegensatz zu OmniGen v1 verfügt OmniGen2 über zwei getrennte Decodierungspfade für Text- und Bildmodalitäten, die ungeteilte Parameter und einen entkoppelten Bildtokenizer verwenden. Diese Architektur ermöglicht es OmniGen2, auf bestehenden multimodalen Verständigungsmodellen aufzubauen, ohne VAE-Eingaben neu anpassen zu müssen, wodurch die ursprünglichen Textgenerierungsfähigkeiten erhalten bleiben. Um die Trainingsphase von OmniGen2 zu erleichtern, haben wir umfassende Datenkonstruktionspipelines entwickelt, die Daten für Bildbearbeitung und kontextbasierte Generierung umfassen. Zudem führen wir ein Reflexionsmechanismus ein, der speziell für Bildgenerierungsaufgaben ausgelegt ist, und erstellen einen dedizierten Reflexionsdatensatz basierend auf OmniGen2. Trotz seiner relativ bescheidenen Parameternzahl erzielt OmniGen2 wettbewerbsfähige Ergebnisse bei mehreren Benchmarks, einschließlich Text-zu-Bild-Generierung und Bildbearbeitung. Um kontextbasierte Generierung weiter zu evaluieren – auch als objektgetriebene Aufgaben bezeichnet – führen wir einen neuen Benchmark namens OmniContext ein. OmniGen2 erreicht den Stand der Technik unter quelloffenen Modellen hinsichtlich Konsistenz. Wir werden unsere Modelle, Trainingscode, Datensätze und Datenkonstruktionspipeline veröffentlichen, um zukünftige Forschungen in diesem Bereich zu unterstützen. Projektseite: https://vectorspacelab.github.io/OmniGen2; GitHub-Link: https://github.com/VectorSpaceLab/OmniGen2