vor 3 Monaten

Guozhen Zhang Zixiang Zhou Teng Hu Ziqiao Peng Youliang Zhang Yi Chen Yuan Zhou Qinglin Lu Limin Wang

Zusammenfassung

Aufgrund des Mangels an effektiven Modellen für die multimodale Datenverarbeitung weisen bestehende Open-Source-Methoden zur audiovisuellen Generierung häufig eine beeinträchtigte Lippen-Synchronisation und unzureichende semantische Konsistenz auf. Um diese Nachteile zu mindern, stellen wir UniAVGen vor – einen einheitlichen Rahmen für die gemeinsame Audio- und Video-Generierung. UniAVGen basiert auf einer dualen Zweig-Architektur zur gemeinsamen Synthese und integriert zwei parallele Diffusion Transformers (DiTs), um einen kohärenten multimodalen Latentraum zu schaffen. Im Kern steht ein asymmetrisches multimodales Interaktionsmechanismus, der bidirektionale, zeitlich abgestimmte Cross-Attention ermöglicht und somit eine präzise spatiotemporale Synchronisation sowie semantische Konsistenz gewährleistet. Darüber hinaus wird diese multimodale Interaktion durch ein face-aware Modulation-Modul ergänzt, das dynamisch auffällige Regionen im Interaktionsprozess priorisiert. Um die Generierungsgenauigkeit während der Inferenz zu verbessern, führen wir zudem eine modality-aware Classifier-Free Guidance ein – eine neuartige Strategie, die explizit die multimodalen Korrelations-Signale verstärkt. Insbesondere ermöglicht die robuste Architektur von UniAVGen die nahtlose Integration zentraler audiovisueller Aufgaben innerhalb eines einzigen Modells, wie beispielsweise gemeinsame Audio-Video-Generierung und -Fortsetzung, Video-zu-Audio-Subtitelung sowie audiogetriebene Video-Synthese. Umfassende Experimente belegen, dass UniAVGen mit deutlich weniger Trainingsdaten (1,3 Mio. gegenüber 30,1 Mio.) insgesamt bessere Ergebnisse in Bezug auf Audio-Video-Synchronisation, Klangfarbe (Timbre) und Emotionskonsistenz erzielt.

Quell-PDF

KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren

Sofort einsatzbereite GPUs

Die besten Preise

Erste Schritte Preise anzeigen

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates

Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen

Unterstützt von MailChimp

vor 3 Monaten

Guozhen Zhang Zixiang Zhou Teng Hu Ziqiao Peng Youliang Zhang Yi Chen Yuan Zhou Qinglin Lu Limin Wang

Zusammenfassung

Quell-PDF

KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren

Sofort einsatzbereite GPUs

Die besten Preise

Erste Schritte Preise anzeigen

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates

Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen

Unterstützt von MailChimp

vor 3 Monaten

Guozhen Zhang Zixiang Zhou Teng Hu Ziqiao Peng Youliang Zhang Yi Chen Yuan Zhou Qinglin Lu Limin Wang

Zusammenfassung

Quell-PDF

KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren

Sofort einsatzbereite GPUs

Die besten Preise

Erste Schritte Preise anzeigen

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates

Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen

Unterstützt von MailChimp

UniAVGen: Einheitliche Audio- und Videogenerierung mit asymmetrischen, quermodalen Wechselwirkungen | Paper | HyperAI

Command Palette

UniAVGen: Einheitliche Audio- und Videogenerierung mit asymmetrischen, quermodalen Wechselwirkungen

Guozhen Zhang Zixiang Zhou Teng Hu Ziqiao Peng Youliang Zhang Yi Chen Yuan Zhou Qinglin Lu Limin Wang

Zusammenfassung

KI mit KI entwickeln

HyperAI Newsletters

Command Palette

UniAVGen: Einheitliche Audio- und Videogenerierung mit asymmetrischen, quermodalen Wechselwirkungen

Guozhen Zhang Zixiang Zhou Teng Hu Ziqiao Peng Youliang Zhang Yi Chen Yuan Zhou Qinglin Lu Limin Wang

Zusammenfassung

KI mit KI entwickeln

HyperAI Newsletters

Command Palette

UniAVGen: Einheitliche Audio- und Videogenerierung mit asymmetrischen, quermodalen Wechselwirkungen

Guozhen Zhang Zixiang Zhou Teng Hu Ziqiao Peng Youliang Zhang Yi Chen Yuan Zhou Qinglin Lu Limin Wang

Zusammenfassung

KI mit KI entwickeln

HyperAI Newsletters