Dieses Notebook ausführen Auf Discord diskutieren

Datum

vor 7 Monaten

Größe

1.62 GB

1. Einführung in das Tutorial

OmniGen2 ist ein Open-Source-Modell für multimodale Generierung, das von der Beijing Academy of Artificial Intelligence (BAAI) am 16. Juni 2025 veröffentlicht wurde. Es bietet eine einheitliche Lösung für verschiedene generative Aufgaben, darunter Text-zu-Bild-Konvertierung, Bildbearbeitung und Kontextgenerierung. Im Gegensatz zu OmniGen v1 verwendet OmniGen2 zwei unabhängige Dekodierungspfade für Text- und Bildmodalitäten mit nicht-gemeinsamen Parametern und separaten Bildsegmentierern. Dadurch kann OmniGen2 auf bestehenden Modellen zur multimodalen Datenverarbeitung aufbauen, ohne an VAE-Eingaben angepasst werden zu müssen, und behält somit seine ursprünglichen Fähigkeiten zur Textgenerierung bei. Die Kerninnovationen liegen in der Dual-Path-Architektur und dem Selbstreflexionsmechanismus, die einen neuen Maßstab für aktuelle Open-Source-Modelle für multimodale Daten setzen. Zugehörige Forschungsarbeiten sind verfügbar. OmniGen2: Erkundung der fortschrittlichen multimodalen Stromerzeugung .

Die Rechenressourcen dieses Tutorials verwenden eine einzelne RTX A6000-Karte und die englischen Eingabeaufforderungen sind derzeit effektiver.

2. Effektanzeige

Einige Beispiele für Effekte mit OmniGen2:

Demonstration der OmniGen2-Bildbearbeitungsfunktion

Demonstration der OmniGen2-Kontextgenerierungsfunktion

3. Bedienungsschritte

1. Starten Sie den Container

2. Anwendungsschritte

Wenn „Bad Gateway“ angezeigt wird, bedeutet dies, dass das Modell initialisiert wird. Da das Modell groß ist, warten Sie bitte etwa 2–3 Minuten und aktualisieren Sie die Seite.

Das erste Beispiel ist eine Bildbeschreibung, das zweite und dritte Beispiel sind Visualisierungsbilder und die restlichen Beispiele sind Bildbearbeitungen.

Spezifische Parameter:

Höhe: Höhe.
Breite: Breite.
Textführungsskala: Textführungsskala.
Bildführungsskala: Bildführungsskala.
CFG Bereichsanfang: Bereichsanfang.
CFG-Bereichsende: Bereichsende.
Planer: Planer.
Inferenzschritte: Inferenzschritte.
Anzahl der Bilder pro Eingabeaufforderung: Die Anzahl der Bilder pro Eingabeaufforderung.
Samen: Samen.
max_input_image_side_length: Maximale Seitenlänge des Eingabebildes.
max_pixels: Maximale Pixelanzahl.

Ergebnis

4. Diskussion

🖌️ Wenn Sie ein hochwertiges Projekt sehen, hinterlassen Sie bitte im Hintergrund eine Nachricht, um es weiterzuempfehlen! Darüber hinaus haben wir auch eine Tutorien-Austauschgruppe ins Leben gerufen. Willkommen, Freunde, scannen Sie den QR-Code und kommentieren Sie [SD-Tutorial], um der Gruppe beizutreten, verschiedene technische Probleme zu besprechen und Anwendungsergebnisse auszutauschen ↓

Zitationsinformationen

Die Zitationsinformationen für dieses Projekt lauten wie folgt:

@article{wu2025omnigen2,
  title={OmniGen2: Exploration to Advanced Multimodal Generation},
  author={Chenyuan Wu and Pengfei Zheng and Ruiran Yan and Shitao Xiao and Xin Luo and Yueze Wang and Wanli Li and Xiyan Jiang and Yexin Liu and Junjie Zhou and Ze Liu and Ziyi Xia and Chaofan Li and Haoge Deng and Jiahao Wang and Kun Luo and Bo Zhang and Defu Lian and Xinlong Wang and Zhongyuan Wang and Tiejun Huang and Zheng Liu},
  journal={arXiv preprint arXiv:2506.18871},
  year={2025}
}

Dieses Notebook wurde von Community-Nutzern beigesteuert und dient ausschließlich Bildungs- und Informationszwecken. Bei urheberrechtlichen Bedenken kontaktieren Sie uns bitte unter [email protected] zur umgehenden Prüfung und Entfernung.

Verwandt Notebooks

Ovis-Image: Hochwertiges Bildgenerierungsmodell

vor 2 Monaten

VibeVoice-Realtime TTS: Echtzeit-Sprachsynthesedienst

vor 2 Monaten

MonkeyOCR: Dokumentenanalyse Basierend Auf Dem Struktur-Erkennungs-Relations-Dreifachparadigma

vor 3 Monaten

KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren

Sofort einsatzbereite GPUs

Die besten Preise

Erste Schritte Preise anzeigen

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates

Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen

Unterstützt von MailChimp

HyperAI

Dieses Notebook ausführen Auf Discord diskutieren

Datum

vor 7 Monaten

Größe

1.62 GB

1. Einführung in das Tutorial

Die Rechenressourcen dieses Tutorials verwenden eine einzelne RTX A6000-Karte und die englischen Eingabeaufforderungen sind derzeit effektiver.

2. Effektanzeige

Einige Beispiele für Effekte mit OmniGen2:

3. Bedienungsschritte

1. Starten Sie den Container

2. Anwendungsschritte

Wenn „Bad Gateway“ angezeigt wird, bedeutet dies, dass das Modell initialisiert wird. Da das Modell groß ist, warten Sie bitte etwa 2–3 Minuten und aktualisieren Sie die Seite.

Das erste Beispiel ist eine Bildbeschreibung, das zweite und dritte Beispiel sind Visualisierungsbilder und die restlichen Beispiele sind Bildbearbeitungen.

Spezifische Parameter:

Höhe: Höhe.
Breite: Breite.
Textführungsskala: Textführungsskala.
Bildführungsskala: Bildführungsskala.
CFG Bereichsanfang: Bereichsanfang.
CFG-Bereichsende: Bereichsende.
Planer: Planer.
Inferenzschritte: Inferenzschritte.
Anzahl der Bilder pro Eingabeaufforderung: Die Anzahl der Bilder pro Eingabeaufforderung.
Samen: Samen.
max_input_image_side_length: Maximale Seitenlänge des Eingabebildes.
max_pixels: Maximale Pixelanzahl.

Ergebnis

4. Diskussion

Zitationsinformationen

Die Zitationsinformationen für dieses Projekt lauten wie folgt:

@article{wu2025omnigen2,
  title={OmniGen2: Exploration to Advanced Multimodal Generation},
  author={Chenyuan Wu and Pengfei Zheng and Ruiran Yan and Shitao Xiao and Xin Luo and Yueze Wang and Wanli Li and Xiyan Jiang and Yexin Liu and Junjie Zhou and Ze Liu and Ziyi Xia and Chaofan Li and Haoge Deng and Jiahao Wang and Kun Luo and Bo Zhang and Defu Lian and Xinlong Wang and Zhongyuan Wang and Tiejun Huang and Zheng Liu},
  journal={arXiv preprint arXiv:2506.18871},
  year={2025}
}

Verwandt Notebooks

Ovis-Image: Hochwertiges Bildgenerierungsmodell

vor 2 Monaten

VibeVoice-Realtime TTS: Echtzeit-Sprachsynthesedienst

vor 2 Monaten

MonkeyOCR: Dokumentenanalyse Basierend Auf Dem Struktur-Erkennungs-Relations-Dreifachparadigma

vor 3 Monaten

PaddleOCR-VL: Multimodale Dokumentenanalyse

vor 3 Monaten

Open-AutoGLM: Intelligenter Assistent Für Mobile Geräte

vor 2 Monaten

FLUX.2-dev: Bildgenerierungs- Und Bearbeitungsmodell

vor 2 Monaten

HunyuanOCR: End-to-End-OCR Von Tencent Hunyuan

vor 2 Monaten

Qwen-Image-Lightning Mit Einem Klick Bereitstellen

vor 2 Monaten

DiagGym Diagnostik-Agent

vor 15 Tagen

KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren

Sofort einsatzbereite GPUs

Die besten Preise

Erste Schritte Preise anzeigen

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates

Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen

Unterstützt von MailChimp

Command Palette

OmniGen2: Erforschung Fortschrittlicher Multimodaler Generierung

1. Einführung in das Tutorial

2. Effektanzeige

3. Bedienungsschritte

1. Starten Sie den Container

2. Anwendungsschritte

4. Diskussion

Zitationsinformationen

KI mit KI entwickeln

HyperAI Newsletters

Command Palette

OmniGen2: Erforschung Fortschrittlicher Multimodaler Generierung

1. Einführung in das Tutorial

2. Effektanzeige

3. Bedienungsschritte

1. Starten Sie den Container

2. Anwendungsschritte

4. Diskussion

Zitationsinformationen

Verwandt Notebooks

Ovis-Image: Hochwertiges Bildgenerierungsmodell

VibeVoice-Realtime TTS: Echtzeit-Sprachsynthesedienst

MonkeyOCR: Dokumentenanalyse Basierend Auf Dem Struktur-Erkennungs-Relations-Dreifachparadigma

PaddleOCR-VL: Multimodale Dokumentenanalyse

Open-AutoGLM: Intelligenter Assistent Für Mobile Geräte

FLUX.2-dev: Bildgenerierungs- Und Bearbeitungsmodell

HunyuanOCR: End-to-End-OCR Von Tencent Hunyuan

Qwen-Image-Lightning Mit Einem Klick Bereitstellen

DiagGym Diagnostik-Agent

KI mit KI entwickeln

HyperAI Newsletters

Command Palette

OmniGen2: Erforschung Fortschrittlicher Multimodaler Generierung

1. Einführung in das Tutorial

2. Effektanzeige

3. Bedienungsschritte

1. Starten Sie den Container

2. Anwendungsschritte

4. Diskussion

Zitationsinformationen

Verwandt Notebooks

Ovis-Image: Hochwertiges Bildgenerierungsmodell

VibeVoice-Realtime TTS: Echtzeit-Sprachsynthesedienst

MonkeyOCR: Dokumentenanalyse Basierend Auf Dem Struktur-Erkennungs-Relations-Dreifachparadigma

PaddleOCR-VL: Multimodale Dokumentenanalyse

Open-AutoGLM: Intelligenter Assistent Für Mobile Geräte

FLUX.2-dev: Bildgenerierungs- Und Bearbeitungsmodell

HunyuanOCR: End-to-End-OCR Von Tencent Hunyuan

Qwen-Image-Lightning Mit Einem Klick Bereitstellen

DiagGym Diagnostik-Agent

KI mit KI entwickeln

HyperAI Newsletters

Verwandt Notebooks

Ovis-Image: Hochwertiges Bildgenerierungsmodell

VibeVoice-Realtime TTS: Echtzeit-Sprachsynthesedienst

MonkeyOCR: Dokumentenanalyse Basierend Auf Dem Struktur-Erkennungs-Relations-Dreifachparadigma

PaddleOCR-VL: Multimodale Dokumentenanalyse

Open-AutoGLM: Intelligenter Assistent Für Mobile Geräte

FLUX.2-dev: Bildgenerierungs- Und Bearbeitungsmodell

HunyuanOCR: End-to-End-OCR Von Tencent Hunyuan

Qwen-Image-Lightning Mit Einem Klick Bereitstellen

DiagGym Diagnostik-Agent

Verwandt Notebooks

Ovis-Image: Hochwertiges Bildgenerierungsmodell

VibeVoice-Realtime TTS: Echtzeit-Sprachsynthesedienst

MonkeyOCR: Dokumentenanalyse Basierend Auf Dem Struktur-Erkennungs-Relations-Dreifachparadigma

PaddleOCR-VL: Multimodale Dokumentenanalyse

Open-AutoGLM: Intelligenter Assistent Für Mobile Geräte

FLUX.2-dev: Bildgenerierungs- Und Bearbeitungsmodell

HunyuanOCR: End-to-End-OCR Von Tencent Hunyuan

Qwen-Image-Lightning Mit Einem Klick Bereitstellen

DiagGym Diagnostik-Agent