HyperAI

OmniGen2: Erforschung Fortschrittlicher Multimodaler Generierung

1. Einführung in das Tutorial

Bauen

OmniGen2 ist ein Open-Source-Modell zur multimodalen Generierung, das am 16. Juni 2025 von der Beijing Academy of Artificial Intelligence (BAAI) veröffentlicht wurde. Es bietet eine einheitliche Lösung für verschiedene Generierungsaufgaben, darunter Text-zu-Bild-Generierung, Bildbearbeitung und Kontextgenerierung. Im Gegensatz zu OmniGen v1 entwickelt OmniGen2 zwei unabhängige Dekodierungspfade für Text- und Bildmodalitäten unter Verwendung nicht gemeinsam genutzter Parameter und separater Bildsegmentierer. Dieses Design ermöglicht es OmniGen2, auf bestehenden multimodalen Verständnismodellen aufzubauen, ohne VAE-Eingaben neu anpassen zu müssen. Dadurch bleiben die ursprünglichen Textgenerierungsfunktionen erhalten. Die Kerninnovation liegt in der Dual-Path-Architektur und dem Selbstreflexionsmechanismus, der einen neuen Maßstab für aktuelle Open-Source-Multimodalmodelle gesetzt hat. Die relevanten Ergebnisse der Studie sind:OmniGen2: Erkundung der fortschrittlichen multimodalen Stromerzeugung".

Die Rechenressourcen dieses Tutorials verwenden eine einzelne RTX A6000-Karte und die englischen Eingabeaufforderungen sind derzeit effektiver.

2. Effektanzeige

Einige Beispiele für Effekte mit OmniGen2:

Demonstration der OmniGen2-Bildbearbeitungsfunktion
Demonstration der OmniGen2-Kontextgenerierungsfunktion

3. Bedienungsschritte

1. Starten Sie den Container

2. Anwendungsschritte

Wenn „Bad Gateway“ angezeigt wird, bedeutet dies, dass das Modell initialisiert wird. Da das Modell groß ist, warten Sie bitte etwa 2–3 Minuten und aktualisieren Sie die Seite.

Das erste Beispiel ist eine Bildbeschreibung, das zweite und dritte Beispiel sind Visualisierungsbilder und die restlichen Beispiele sind Bildbearbeitungen.

Spezifische Parameter:

  • Höhe: Höhe.
  • Breite: Breite.
  • Textführungsskala: Textführungsskala.
  • Bildführungsskala: Bildführungsskala.
  • CFG Bereichsanfang: Bereichsanfang.
  • CFG-Bereichsende: Bereichsende.
  • Planer: Planer.
  • Inferenzschritte: Inferenzschritte.
  • Anzahl der Bilder pro Eingabeaufforderung: Die Anzahl der Bilder pro Eingabeaufforderung.
  • Samen: Samen.
  • max_input_image_side_length: Maximale Seitenlänge des Eingabebildes.
  • max_pixels: Maximale Pixelanzahl.

Ergebnis

4. Diskussion

🖌️ Wenn Sie ein hochwertiges Projekt sehen, hinterlassen Sie bitte im Hintergrund eine Nachricht, um es weiterzuempfehlen! Darüber hinaus haben wir auch eine Tutorien-Austauschgruppe ins Leben gerufen. Willkommen, Freunde, scannen Sie den QR-Code und kommentieren Sie [SD-Tutorial], um der Gruppe beizutreten, verschiedene technische Probleme zu besprechen und Anwendungsergebnisse auszutauschen ↓

Zitationsinformationen

Die Zitationsinformationen für dieses Projekt lauten wie folgt:

@article{wu2025omnigen2,
  title={OmniGen2: Exploration to Advanced Multimodal Generation},
  author={Chenyuan Wu and Pengfei Zheng and Ruiran Yan and Shitao Xiao and Xin Luo and Yueze Wang and Wanli Li and Xiyan Jiang and Yexin Liu and Junjie Zhou and Ze Liu and Ziyi Xia and Chaofan Li and Haoge Deng and Jiahao Wang and Kun Luo and Bo Zhang and Defu Lian and Xinlong Wang and Zhongyuan Wang and Tiejun Huang and Zheng Liu},
  journal={arXiv preprint arXiv:2506.18871},
  year={2025}
}