Command Palette
Search for a command to run...
HuMo: Menschzentrierte Videoerzeugung durch kooperative mehrdimensionale Bedingungsgebung
Liyang Chen Tianxiang Ma Jiawei Liu Bingchuan Li Zhuowei Chen Lijie Liu Xu He Gen Li Qian He Zhiyong Wu

Abstract
Menschzentrierte Videoerzeugung (Human-Centric Video Generation, HCVG) zielt darauf ab, Videos von Menschen aus multimodalen Eingaben wie Text, Bild und Audio zu synthetisieren. Bestehende Ansätze stoßen auf Schwierigkeiten, diese heterogenen Modalitäten effektiv zu koordinieren, was zwei zentrale Herausforderungen mit sich bringt: die Knappheit an Trainingsdaten mit paaren Tripelbedingungen sowie die Schwierigkeit, die Teilaufgaben der Subjekterhaltung und der Audio-Visual-Synchronisation unter Verwendung multimodaler Eingaben zu koordinieren. In dieser Arbeit präsentieren wir HuMo, einen einheitlichen HCVG-Framework für die kooperative multimodale Steuerung. Zur Bewältigung der ersten Herausforderung erstellen wir eine hochwertige Datensammlung mit vielfältigen und paarten Text-, Referenzbild- und Audiodaten. Für die zweite Herausforderung schlagen wir ein zweistufiges, fortschreitendes multimodales Trainingsparadigma mit auf die Aufgabe zugeschnittenen Strategien vor. Bei der Aufgabe der Subjekterhaltung behalten wir die Fähigkeit des Grundmodells zur Prompt-Verfolgung und visuellen Generierung durch die Anwendung einer minimal-invasiven Bildinjektionsstrategie bei. Bei der Aufgabe der Audio-Visual-Synchronisation ergänzen wir die üblicherweise verwendete Audio-Cross-Attention-Schicht um eine „focus-by-predicting“-Strategie, die das Modell implizit anleitet, Audio mit Gesichtsregionen zu verknüpfen. Zur gemeinsamen Lernung von Kontrollmöglichkeiten über multimodale Eingaben bauen wir auf bereits erworbenen Fähigkeiten auf und führen schrittweise die Aufgabe der Audio-Visual-Synchronisation ein. Während der Inferenz entwerfen wir eine zeitadaptiv arbeitende Classifier-Free Guidance-Strategie, die es ermöglicht, die Leitgewichte dynamisch über die Entrauschungsschritte hinweg anzupassen, um eine flexible und feinabgestimmte multimodale Steuerung zu gewährleisten. Umfangreiche experimentelle Ergebnisse zeigen, dass HuMo spezialisierte state-of-the-art-Methoden in den Teilaspekten übertrifft und damit einen einheitlichen Rahmen für die kooperative, multimodal gesteuerte HCVG etabliert. Projektseite: https://phantom-video.github.io/HuMo.
KI mit KI entwickeln
Von der Idee bis zum Start — beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und den besten GPU-Preisen.