vor 7 Stunden

Donghao Zhou Guisheng Liu Hao Yang Jiatong Li Jingyu Lin Xiaohu Huang Yichen Liu Xin Gao Cunjian Chen Shilei Wen

Zusammenfassung

In dieser Arbeit untersuchen wir die Human-Object Interaction Video Generation (HOIVG), die darauf abzielt, hochwertige Videos von Mensch-Objekt-Interaktionen zu synthetisieren, die auf Text, Referenzbildern, Audio und Posen basieren. Diese Aufgabe besitzt einen erheblichen praktischen Wert für die Automatisierung der Content-Erstellung in realen Anwendungen, wie beispielsweise E-Commerce-Demonstrationen, der Produktion von Kurzvideos und interaktiver Unterhaltung. Bestehende Ansätze scheitern jedoch daran, all diese erforderlichen Bedingungen gleichzeitig zu berücksichtigen.Wir präsentieren OmniShow, ein End-to-End-Framework, das speziell für diese praxisnahe, aber anspruchsvolle Aufgabe entwickelt wurde und in der Lage ist, multimodale Bedingungen zu harmonisieren und eine Leistung auf Industriestandard zu liefern. Um den Kompromiss zwischen Kontrollierbarkeit und Qualität zu überwinden, führen wir Unified Channel-wise Conditioning für eine effiziente Injektion von Bildern und Posen sowie Gated Local-Context Attention ein, um eine präzise Audio-Visuelle Synchronisation zu gewährleisten.Um dem Problem der Datenknappheit effektiv zu begegnen, entwickeln wir eine Decoupled-Then-Joint Training Strategie. Diese nutzt einen mehrstufigen Training-Prozess mit Model Merging, um heterogene Sub-Task-Datensätze effizient zu nutzen. Darüber hinaus schließen wir die bestehende Forschungslücke in diesem Bereich, indem wir HOIVG-Bench etablieren, einen dedizierten und umfassenden Benchmark für HOIVG.Umfangreiche Experimente zeigen, dass OmniShow über verschiedene multimodale Conditioning-Einstellungen hinweg eine überlegene State-of-the-Art-Leistung erzielt und damit einen soliden Standard für die aufstrebende HOIVG-Aufgabe setzt.

Quell-PDF Code anzeigen

KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren

Sofort einsatzbereite GPUs

Die besten Preise

Erste Schritte Preise anzeigen

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates

Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen

Unterstützt von MailChimp

vor 7 Stunden

Donghao Zhou Guisheng Liu Hao Yang Jiatong Li Jingyu Lin Xiaohu Huang Yichen Liu Xin Gao Cunjian Chen Shilei Wen

Zusammenfassung

Quell-PDF Code anzeigen

KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren

Sofort einsatzbereite GPUs

Die besten Preise

Erste Schritte Preise anzeigen

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates

Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen

Unterstützt von MailChimp

vor 7 Stunden

Donghao Zhou Guisheng Liu Hao Yang Jiatong Li Jingyu Lin Xiaohu Huang Yichen Liu Xin Gao Cunjian Chen Shilei Wen

Zusammenfassung

Quell-PDF Code anzeigen

KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren

Sofort einsatzbereite GPUs

Die besten Preise

Erste Schritte Preise anzeigen

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates

Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen

Unterstützt von MailChimp

Command Palette

OmniShow: Unifying Multimodal Conditions für die Generierung von Human-Object Interaction Videos

Donghao Zhou Guisheng Liu Hao Yang Jiatong Li Jingyu Lin Xiaohu Huang Yichen Liu Xin Gao Cunjian Chen Shilei Wen2 more

Zusammenfassung

KI mit KI entwickeln

HyperAI Newsletters

Command Palette

OmniShow: Unifying Multimodal Conditions für die Generierung von Human-Object Interaction Videos

Donghao Zhou Guisheng Liu Hao Yang Jiatong Li Jingyu Lin Xiaohu Huang Yichen Liu Xin Gao Cunjian Chen Shilei Wen2 more

Zusammenfassung

KI mit KI entwickeln

HyperAI Newsletters

Command Palette

OmniShow: Unifying Multimodal Conditions für die Generierung von Human-Object Interaction Videos

Donghao Zhou Guisheng Liu Hao Yang Jiatong Li Jingyu Lin Xiaohu Huang Yichen Liu Xin Gao Cunjian Chen Shilei Wen2 more

Zusammenfassung

KI mit KI entwickeln

HyperAI Newsletters

Donghao Zhou Guisheng Liu Hao Yang Jiatong Li Jingyu Lin Xiaohu Huang Yichen Liu Xin Gao Cunjian Chen Shilei Wen

Donghao Zhou Guisheng Liu Hao Yang Jiatong Li Jingyu Lin Xiaohu Huang Yichen Liu Xin Gao Cunjian Chen Shilei Wen

Donghao Zhou Guisheng Liu Hao Yang Jiatong Li Jingyu Lin Xiaohu Huang Yichen Liu Xin Gao Cunjian Chen Shilei Wen