HyperAIHyperAI

Command Palette

Search for a command to run...

Die Zähmung multimodaler gemeinsamer Trainingsmethoden für eine hochwertige Video-to-Audio-Synthese

Ho Kei Cheng Masato Ishii Akio Hayakawa Takashi Shibuya Alexander Schwing Yuki Mitsufuji

Zusammenfassung

Wir schlagen vor, hochwertige und synchronisierte Audiosignale unter Berücksichtigung von Video- und optionalen Textbedingungen zu synthetisieren, indem wir ein neues multimodales gemeinsames Trainingsframework namens MMAudio verwenden. Im Gegensatz zum Einzelmodus-Training, das nur auf (begrenzten) Videodaten basiert, wird MMAudio mit umfangreicheren und leicht zugänglichen Text-Audio-Daten gemeinsam trainiert, um die Generierung semantisch ausgerichteter hochwertiger Audiosamples zu erlernen. Zudem verbessern wir die Audio-Video-Synchronisation durch ein bedingtes Synchronisationsmodul, das die Videobedingungen auf Frame-Ebene mit den Audio-Latents ausrichtet. Mit einem Flussabgleichsziel trainiert, erreicht MMAudio einen neuen Stand der Technik im Bereich Video-zu-Audio unter öffentlichen Modellen hinsichtlich Audiotqualität, semantischer Ausrichtung und Audio-Video-Synchronisation, wobei es eine geringe Inferenzzeit (1,23 Sekunden zur Generierung eines 8-Sekunden-Cuts) und lediglich 157 Millionen Parameter hat. MMAudio erzielt zudem überraschend wettbewerbsfähige Leistungen bei der Text-zu-Audio-Generierung, was zeigt, dass das gemeinsame Training die Leistung im Einzelmodus nicht beeinträchtigt. Der Quellcode und eine Demonstration sind unter folgender URL verfügbar: https://hkchengrex.github.io/MMAudio


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp
Die Zähmung multimodaler gemeinsamer Trainingsmethoden für eine hochwertige Video-to-Audio-Synthese | Paper | HyperAI