vor 5 Tagen

UniVerse-1: Unified Audio-Video Generation durch Stitching von Experten

Duomin Wang, Wei Zuo, Aojie Li, Ling-Hao Chen, et al

Details der Forschungsarbeit anzeigen View Code

UniVerse-1: Unified Audio-Video Generation durch Stitching von Experten

Abstract

Wir stellen UniVerse-1 vor, ein integriertes Modell im Stil von Veo-3, das gleichzeitig koordinierte Audio- und Videodaten generieren kann. Um die Trainingseffizienz zu steigern, verzichten wir auf das Training von Grund auf und setzen stattdessen eine „Stitching of Experts“ (SoE)-Technik ein. Dabei werden tiefgreifend die entsprechenden Blöcke vortrainierter Modelle für Video- und Musikgenerierung miteinander verknüpft, wodurch deren grundlegende Fähigkeiten optimal genutzt werden können. Um präzise Annotationen und zeitliche Synchronisation sowohl für Hintergrundgeräusche als auch für Sprache mit dem Videoinhalt sicherzustellen, haben wir eine Online-Annotationsschnittstelle entwickelt, die die erforderlichen Trainingsdaten verarbeitet und während des Trainings Labels generiert. Dieser Ansatz vermeidet die oft durch fehlerhafte textbasierte Annotationen verursachte Leistungseinbuße. Durch die Synergie dieser Techniken erzeugt unser Modell nach dem Fine-Tuning auf etwa 7.600 Stunden Audio-Video-Daten Ergebnisse mit gut koordinierten Audio-Visuals bei der Generierung von Hintergrundgeräuschen und einer starken zeitlichen Übereinstimmung bei der Sprachgenerierung. Um unsere vorgeschlagene Methode systematisch zu evaluieren, führen wir Verse-Bench ein – eine neue Benchmark-Datensammlung. Um die Forschung im Bereich der Audio-Video-Generierung voranzutreiben und die Leistungslücke zu state-of-the-art-Modellen wie Veo3 zu schließen, stellen wir unser Modell und den Quellcode öffentlich zur Verfügung. Wir hoffen, dass dieser Beitrag der breiteren Forschungsgemeinschaft zugutekommt. Projektseite: this https URL.