UniAVGen: Einheitliche Audio- und Videogenerierung mit asymmetrischen, quermodalen Wechselwirkungen
Guozhen Zhang Zixiang Zhou Teng Hu Ziqiao Peng Youliang Zhang Yi Chen Yuan Zhou Qinglin Lu Limin Wang

Abstract
Aufgrund des Mangels an effektiven Modellen für die multimodale Datenverarbeitung weisen bestehende Open-Source-Methoden zur audiovisuellen Generierung häufig eine beeinträchtigte Lippen-Synchronisation und unzureichende semantische Konsistenz auf. Um diese Nachteile zu mindern, stellen wir UniAVGen vor – einen einheitlichen Rahmen für die gemeinsame Audio- und Video-Generierung. UniAVGen basiert auf einer dualen Zweig-Architektur zur gemeinsamen Synthese und integriert zwei parallele Diffusion Transformers (DiTs), um einen kohärenten multimodalen Latentraum zu schaffen. Im Kern steht ein asymmetrisches multimodales Interaktionsmechanismus, der bidirektionale, zeitlich abgestimmte Cross-Attention ermöglicht und somit eine präzise spatiotemporale Synchronisation sowie semantische Konsistenz gewährleistet. Darüber hinaus wird diese multimodale Interaktion durch ein face-aware Modulation-Modul ergänzt, das dynamisch auffällige Regionen im Interaktionsprozess priorisiert. Um die Generierungsgenauigkeit während der Inferenz zu verbessern, führen wir zudem eine modality-aware Classifier-Free Guidance ein – eine neuartige Strategie, die explizit die multimodalen Korrelations-Signale verstärkt. Insbesondere ermöglicht die robuste Architektur von UniAVGen die nahtlose Integration zentraler audiovisueller Aufgaben innerhalb eines einzigen Modells, wie beispielsweise gemeinsame Audio-Video-Generierung und -Fortsetzung, Video-zu-Audio-Subtitelung sowie audiogetriebene Video-Synthese. Umfassende Experimente belegen, dass UniAVGen mit deutlich weniger Trainingsdaten (1,3 Mio. gegenüber 30,1 Mio.) insgesamt bessere Ergebnisse in Bezug auf Audio-Video-Synchronisation, Klangfarbe (Timbre) und Emotionskonsistenz erzielt.
KI mit KI entwickeln
Von der Idee bis zum Start — beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und den besten GPU-Preisen.