HyperAIHyperAI

Command Palette

Search for a command to run...

vor 23 Tagen

UniVideo: Einheitliches Verstehen, Generieren und Bearbeiten von Videos

Cong Wei Quande Liu Zixuan Ye Qiulin Wang Xintao Wang Pengfei Wan Kun Gai Wenhu Chen

UniVideo: Einheitliches Verstehen, Generieren und Bearbeiten von Videos

Abstract

Einheitliche multimodale Modelle haben vielversprechende Ergebnisse bei der multimodalen Inhaltserzeugung und -bearbeitung gezeigt, bleiben jedoch weitgehend auf den Bildbereich beschränkt. In dieser Arbeit stellen wir UniVideo vor, einen vielseitigen Rahmen, der die einheitliche Modellierung auf den Video-Bereich erweitert. UniVideo nutzt ein Dual-Stream-Design, das einen Multimodal Large Language Model (MLLM) zur Interpretation von Anweisungen mit einem Multimodal DiT (MMDiT) zur Videoerzeugung kombiniert. Dieses Design ermöglicht eine präzise Interpretation komplexer multimodaler Anweisungen und gewährleistet gleichzeitig visuelle Konsistenz. Auf dieser Architektur aufbauend vereint UniVideo verschiedene Aufgaben der Videoerzeugung und -bearbeitung unter einem einheitlichen multimodalen Anweisungsparadigma und wird gemeinsam über alle Aufgaben trainiert. Ausführliche Experimente zeigen, dass UniVideo sowohl bei der Text-/Bild-zu-Video-Erzeugung als auch bei der kontextbasierten Videoerzeugung und -bearbeitung die derzeitigen state-of-the-art spezifischen Ansätze für einzelne Aufgaben erreicht oder sogar übertreffen kann. Besonders hervorzuheben ist die einheitliche Architektur von UniVideo, die zwei Formen der Generalisierung ermöglicht: Erstens unterstützt UniVideo die Aufgabenkomposition, beispielsweise die Kombination von Bearbeitung und Stilübertragung, indem mehrere Fähigkeiten in einer einzigen Anweisung integriert werden. Zweitens überträgt UniVideo seine Bearbeitungsfähigkeiten – auch ohne explizites Training auf freiformigen Video-Bearbeitungsaufgaben – aus großen Datenmengen für Bildbearbeitung auf diesen Bereich und bewältigt damit bisher unbekannte Anweisungen wie das Green-Screening von Figuren oder die Änderung von Materialien innerhalb eines Videos. Darüber hinaus unterstützt UniVideo auch die video-basierte Erzeugung mittels visueller Prompts, bei der der MLLM visuelle Prompts interpretiert und den MMDiT während der Synthese leitet. Um zukünftige Forschung zu fördern, werden wir unser Modell und den Quellcode veröffentlichen.

KI mit KI entwickeln

Von der Idee bis zum Start — beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und den besten GPU-Preisen.

KI-Co-Coding
Sofort einsatzbereit GPUs
Beste Preise
Jetzt starten

Hyper Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp
UniVideo: Einheitliches Verstehen, Generieren und Bearbeiten von Videos | Forschungsarbeiten | HyperAI