Command Palette
Search for a command to run...
OmniShow: Unifying Multimodal Conditions für die Generierung von Human-Object Interaction Videos
OmniShow: Unifying Multimodal Conditions für die Generierung von Human-Object Interaction Videos
Zusammenfassung
In dieser Arbeit untersuchen wir die Human-Object Interaction Video Generation (HOIVG), die darauf abzielt, hochwertige Videos von Mensch-Objekt-Interaktionen zu synthetisieren, die auf Text, Referenzbildern, Audio und Posen basieren. Diese Aufgabe besitzt einen erheblichen praktischen Wert für die Automatisierung der Content-Erstellung in realen Anwendungen, wie beispielsweise E-Commerce-Demonstrationen, der Produktion von Kurzvideos und interaktiver Unterhaltung. Bestehende Ansätze scheitern jedoch daran, all diese erforderlichen Bedingungen gleichzeitig zu berücksichtigen.Wir präsentieren OmniShow, ein End-to-End-Framework, das speziell für diese praxisnahe, aber anspruchsvolle Aufgabe entwickelt wurde und in der Lage ist, multimodale Bedingungen zu harmonisieren und eine Leistung auf Industriestandard zu liefern. Um den Kompromiss zwischen Kontrollierbarkeit und Qualität zu überwinden, führen wir Unified Channel-wise Conditioning für eine effiziente Injektion von Bildern und Posen sowie Gated Local-Context Attention ein, um eine präzise Audio-Visuelle Synchronisation zu gewährleisten.Um dem Problem der Datenknappheit effektiv zu begegnen, entwickeln wir eine Decoupled-Then-Joint Training Strategie. Diese nutzt einen mehrstufigen Training-Prozess mit Model Merging, um heterogene Sub-Task-Datensätze effizient zu nutzen. Darüber hinaus schließen wir die bestehende Forschungslücke in diesem Bereich, indem wir HOIVG-Bench etablieren, einen dedizierten und umfassenden Benchmark für HOIVG.Umfangreiche Experimente zeigen, dass OmniShow über verschiedene multimodale Conditioning-Einstellungen hinweg eine überlegene State-of-the-Art-Leistung erzielt und damit einen soliden Standard für die aufstrebende HOIVG-Aufgabe setzt.