OmniGen2: Offene Modelllösung für multimodale Generierungsaufgaben
OmniGen2: Erkundung der fortgeschrittenen multimodalen Generierung Im Rahmen dieser Arbeit stellen wir OmniGen2 vor, ein Open-Source-Generierungsmodell, das darauf ausgelegt ist, verschiedene Generierungsaufgaben wie Text-zu-Bild, Bildbearbeitung und kontextbasierte Generierung zu bewältigen. Im Gegensatz zur früheren Version (OmniGen) verwendet OmniGen2 zwei getrennte Decoding-Pfade für Text und Bilder, wobei jeder Pfad seine eigenen Parameter und einen unabhängigen Bild-Tokenisierer besitzt. Dies ermöglicht es, mit bestehenden multimodalen Modellen zu arbeiten, ohne die Eingaben für VAEs (Variational Autoencoders) zu ändern, und behält dabei seine starke Textgenerierungsfähigkeit. Um OmniGen2 zu trainieren, haben wir umfassende Datenpipelines entwickelt, die Daten für Bildbearbeitung und kontextbasierte Generierung umfassen. Zudem erstellten wir ein spezielles Reflexionsmechanismus für die Bildgenerierung und eine entsprechende Reflexionsdatenbank. Trotz seiner relativ geringen Anzahl an Parametern zeigt OmniGen2 gute Leistungen in Aufgaben wie Text-zu-Bild und Bildbearbeitung. Für kontextbasierte Generierung, auch als subjektorientierte Aufgaben bezeichnet, haben wir eine neue Benchmark genannt OmniContext geschaffen. Hier erreicht OmniGen2 den Stand der Technik unter Open-Source-Modellen. Zukünftige Forschungsarbeiten sollen durch den freien Zugang zu unseren Modellen, dem Trainingscode, den Datenbanken und den Datenpipelines unterstützt werden. Das Projekt steht auf der Projektseite der VectorSpaceLab und ist auf GitHub verfügbar. Projektseite: https://vectorspacelab.github.io/OmniGen2 GitHub: https://github.com/VectorSpaceLab/OmniGen2 Branchenexperten loben OmniGen2 für seine Flexibilität und Leistungsfähigkeit bei der Bearbeitung multimodaler Aufgaben. Besonders hervorgehoben wird die Fähigkeit des Modells, konsistente Ergebnisse in kontextbasierten Generierungsaufgaben zu erzielen, was bisherige offene Modelle oft nicht schafften. Die VectorSpaceLab ist bekannt für ihre fortschrittlichen Arbeiten im Bereich der künstlichen Intelligenz und hat sich insbesondere auf die Entwicklung von multimodalen Systemen spezialisiert. Die Freigabe von OmniGen2 und den damit verbundenen Ressourcen wird dazu beitragen, die Forschung und Entwicklung in diesem Bereich zu beschleunigen und innovative Anwendungen zu fördern.