HyperAIHyperAI

Command Palette

Search for a command to run...

HuMo: Menschzentrierte Videoerzeugung durch kollaborative multimodale Bedingungserzeugung

Liyang Chen Tianxiang Ma Jiawei Liu Bingchuan Li Zhuowei Chen Lijie Liu Xu He Gen Li Qian He Zhiyong Wu

Zusammenfassung

Menschzentrierte Video-Generierung (Human-Centric Video Generation, HCVG) verfolgt das Ziel, menschliche Videos aus multimodalen Eingaben – einschließlich Text, Bild und Audio – zu synthetisieren. Bestehende Ansätze stoßen auf Schwierigkeiten, diese heterogenen Modalitäten effektiv zu koordinieren, hauptsächlich aufgrund zweier Herausforderungen: der Knappheit an Trainingsdaten mit paaren Tripletts (Text, Referenzbild, Audio) und der Komplexität der Kooperation zwischen den Teil-Aufgaben der Subjekterhaltung und der audiovisuellen Synchronisation bei multimodalen Eingaben. In dieser Arbeit präsentieren wir HuMo, einen einheitlichen HCVG-Framework für die kooperative multimodale Steuerung. Zur Bewältigung der ersten Herausforderung erstellen wir eine hochwertige Datensammlung mit vielfältigen und paaren Text-, Referenzbild- und Audio-Input-Daten. Für die zweite Herausforderung schlagen wir ein zweistufiges, progressives multimodales Trainingsparadigma mit auf die jeweilige Aufgabe zugeschnittenen Strategien vor. Für die Aufgabe der Subjekterhaltung behalten wir die Fähigkeit des Grundmodells zur Prompt-Beachtung und visuellen Generierung durch die Anwendung einer minimal-invasiven Bildinjektionsstrategie bei. Für die audiovisuelle Synchronisation ergänzen wir die üblicherweise verwendete Audio-Cross-Attention-Schicht um eine „Focus-by-Predicting“-Strategie, die das Modell implizit anleitet, Audio mit Gesichtsregionen zu assoziieren. Zur gemeinsamen Lernung von Steuerbarkeiten über multimodale Eingaben bauen wir auf bereits erlernten Fähigkeiten auf und integrieren schrittweise die Aufgabe der audiovisuellen Synchronisation. Während der Inferenz entwerfen wir eine zeitadaptierte Classifier-Free Guidance-Strategie, um flexible und feinabgestimmte multimodale Steuerung zu ermöglichen, wobei die Leitgewichte dynamisch über die Entrauschungsschritte angepasst werden. Ausführliche experimentelle Ergebnisse zeigen, dass HuMo spezialisierte state-of-the-art-Methoden in den Teil-Aufgaben übertrifft und einen einheitlichen Rahmen für die kooperative, multimodale Steuerung der HCVG etabliert. Projektseite: https://phantom-video.github.io/HuMo.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp
HuMo: Menschzentrierte Videoerzeugung durch kollaborative multimodale Bedingungserzeugung | Paper | HyperAI