HyperAIHyperAI
vor 2 Monaten

Die Zähmung multimodaler gemeinsamer Trainingsmethoden für eine hochwertige Video-to-Audio-Synthese

Ho Kei Cheng, Masato Ishii, Akio Hayakawa, Takashi Shibuya, Alexander Schwing, Yuki Mitsufuji
Die Zähmung multimodaler gemeinsamer Trainingsmethoden für eine hochwertige Video-to-Audio-Synthese
Abstract

Wir schlagen vor, hochwertige und synchronisierte Audiosignale unter Berücksichtigung von Video- und optionalen Textbedingungen zu synthetisieren, indem wir ein neues multimodales gemeinsames Trainingsframework namens MMAudio verwenden. Im Gegensatz zum Einzelmodus-Training, das nur auf (begrenzten) Videodaten basiert, wird MMAudio mit umfangreicheren und leicht zugänglichen Text-Audio-Daten gemeinsam trainiert, um die Generierung semantisch ausgerichteter hochwertiger Audiosamples zu erlernen. Zudem verbessern wir die Audio-Video-Synchronisation durch ein bedingtes Synchronisationsmodul, das die Videobedingungen auf Frame-Ebene mit den Audio-Latents ausrichtet. Mit einem Flussabgleichsziel trainiert, erreicht MMAudio einen neuen Stand der Technik im Bereich Video-zu-Audio unter öffentlichen Modellen hinsichtlich Audiotqualität, semantischer Ausrichtung und Audio-Video-Synchronisation, wobei es eine geringe Inferenzzeit (1,23 Sekunden zur Generierung eines 8-Sekunden-Cuts) und lediglich 157 Millionen Parameter hat. MMAudio erzielt zudem überraschend wettbewerbsfähige Leistungen bei der Text-zu-Audio-Generierung, was zeigt, dass das gemeinsame Training die Leistung im Einzelmodus nicht beeinträchtigt. Der Quellcode und eine Demonstration sind unter folgender URL verfügbar: https://hkchengrex.github.io/MMAudio

Die Zähmung multimodaler gemeinsamer Trainingsmethoden für eine hochwertige Video-to-Audio-Synthese | Neueste Forschungsarbeiten | HyperAI