HyperAIHyperAI

Command Palette

Search for a command to run...

vor 19 Tagen

UniAVGen: Einheitliche Audio- und Videogenerierung mit asymmetrischen, quermodalen Wechselwirkungen

Guozhen Zhang Zixiang Zhou Teng Hu Ziqiao Peng Youliang Zhang Yi Chen Yuan Zhou Qinglin Lu Limin Wang

UniAVGen: Einheitliche Audio- und Videogenerierung mit asymmetrischen, quermodalen Wechselwirkungen

Abstract

Aufgrund des Mangels an effektiven Modellen für die multimodale Datenverarbeitung weisen bestehende Open-Source-Methoden zur audiovisuellen Generierung häufig eine beeinträchtigte Lippen-Synchronisation und unzureichende semantische Konsistenz auf. Um diese Nachteile zu mindern, stellen wir UniAVGen vor – einen einheitlichen Rahmen für die gemeinsame Audio- und Video-Generierung. UniAVGen basiert auf einer dualen Zweig-Architektur zur gemeinsamen Synthese und integriert zwei parallele Diffusion Transformers (DiTs), um einen kohärenten multimodalen Latentraum zu schaffen. Im Kern steht ein asymmetrisches multimodales Interaktionsmechanismus, der bidirektionale, zeitlich abgestimmte Cross-Attention ermöglicht und somit eine präzise spatiotemporale Synchronisation sowie semantische Konsistenz gewährleistet. Darüber hinaus wird diese multimodale Interaktion durch ein face-aware Modulation-Modul ergänzt, das dynamisch auffällige Regionen im Interaktionsprozess priorisiert. Um die Generierungsgenauigkeit während der Inferenz zu verbessern, führen wir zudem eine modality-aware Classifier-Free Guidance ein – eine neuartige Strategie, die explizit die multimodalen Korrelations-Signale verstärkt. Insbesondere ermöglicht die robuste Architektur von UniAVGen die nahtlose Integration zentraler audiovisueller Aufgaben innerhalb eines einzigen Modells, wie beispielsweise gemeinsame Audio-Video-Generierung und -Fortsetzung, Video-zu-Audio-Subtitelung sowie audiogetriebene Video-Synthese. Umfassende Experimente belegen, dass UniAVGen mit deutlich weniger Trainingsdaten (1,3 Mio. gegenüber 30,1 Mio.) insgesamt bessere Ergebnisse in Bezug auf Audio-Video-Synchronisation, Klangfarbe (Timbre) und Emotionskonsistenz erzielt.

KI mit KI entwickeln

Von der Idee bis zum Start — beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und den besten GPU-Preisen.

KI-Co-Coding
Sofort einsatzbereit GPUs
Beste Preise
Jetzt starten

Hyper Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp
UniAVGen: Einheitliche Audio- und Videogenerierung mit asymmetrischen, quermodalen Wechselwirkungen | Forschungsarbeiten | HyperAI