vor 15 Tagen

OmniGen2: Vom Erkunden zur fortgeschrittenen multimodalen Generierung

Chenyuan Wu, Pengfei Zheng, Ruiran Yan, Shitao Xiao, Xin Luo, Yueze Wang, Wanli Li, Xiyan Jiang, Yexin Liu, Junjie Zhou, Ze Liu, Ziyi Xia, Chaofan Li, Haoge Deng, Jiahao Wang, Kun Luo, Bo Zhang, Defu Lian, Xinlong Wang, Zhongyuan Wang, Tiejun Huang, Zheng Liu

Details der Forschungsarbeit anzeigen View Code

OmniGen2: Vom Erkunden zur fortgeschrittenen multimodalen Generierung

Abstract

In dieser Arbeit stellen wir OmniGen2 vor, ein vielseitiges und quelloffenes Generiermodell, das entwickelt wurde, um eine einheitliche Lösung für verschiedene Generierungsaufgaben zu bieten, darunter Text-zu-Bild-Generierung, Bildbearbeitung und kontextbasierte Generierung. Im Gegensatz zu OmniGen v1 verfügt OmniGen2 über zwei getrennte Decodierungspfade für Text- und Bildmodalitäten, die ungeteilte Parameter und einen entkoppelten Bildtokenizer verwenden. Diese Architektur ermöglicht es OmniGen2, auf bestehenden multimodalen Verständigungsmodellen aufzubauen, ohne VAE-Eingaben neu anpassen zu müssen, wodurch die ursprünglichen Textgenerierungsfähigkeiten erhalten bleiben. Um die Trainingsphase von OmniGen2 zu erleichtern, haben wir umfassende Datenkonstruktionspipelines entwickelt, die Daten für Bildbearbeitung und kontextbasierte Generierung umfassen. Zudem führen wir ein Reflexionsmechanismus ein, der speziell für Bildgenerierungsaufgaben ausgelegt ist, und erstellen einen dedizierten Reflexionsdatensatz basierend auf OmniGen2. Trotz seiner relativ bescheidenen Parameternzahl erzielt OmniGen2 wettbewerbsfähige Ergebnisse bei mehreren Benchmarks, einschließlich Text-zu-Bild-Generierung und Bildbearbeitung. Um kontextbasierte Generierung weiter zu evaluieren – auch als objektgetriebene Aufgaben bezeichnet – führen wir einen neuen Benchmark namens OmniContext ein. OmniGen2 erreicht den Stand der Technik unter quelloffenen Modellen hinsichtlich Konsistenz. Wir werden unsere Modelle, Trainingscode, Datensätze und Datenkonstruktionspipeline veröffentlichen, um zukünftige Forschungen in diesem Bereich zu unterstützen. Projektseite: https://vectorspacelab.github.io/OmniGen2; GitHub-Link: https://github.com/VectorSpaceLab/OmniGen2