HyperAIHyperAI

Command Palette

Search for a command to run...

UniVerse-1: Unified Audio-Video Generation durch Stitching von Experten

Duomin Wang Wei Zuo Aojie Li Ling-Hao Chen et al

Zusammenfassung

Wir stellen UniVerse-1 vor, ein integriertes Modell im Stil von Veo-3, das gleichzeitig koordinierte Audio- und Videodaten generieren kann. Um die Trainingseffizienz zu steigern, verzichten wir auf das Training von Grund auf und setzen stattdessen eine „Stitching of Experts“ (SoE)-Technik ein. Dabei werden tiefgreifend die entsprechenden Blöcke vortrainierter Modelle für Video- und Musikgenerierung miteinander verknüpft, wodurch deren grundlegende Fähigkeiten optimal genutzt werden können. Um präzise Annotationen und zeitliche Synchronisation sowohl für Hintergrundgeräusche als auch für Sprache mit dem Videoinhalt sicherzustellen, haben wir eine Online-Annotationsschnittstelle entwickelt, die die erforderlichen Trainingsdaten verarbeitet und während des Trainings Labels generiert. Dieser Ansatz vermeidet die oft durch fehlerhafte textbasierte Annotationen verursachte Leistungseinbuße. Durch die Synergie dieser Techniken erzeugt unser Modell nach dem Fine-Tuning auf etwa 7.600 Stunden Audio-Video-Daten Ergebnisse mit gut koordinierten Audio-Visuals bei der Generierung von Hintergrundgeräuschen und einer starken zeitlichen Übereinstimmung bei der Sprachgenerierung. Um unsere vorgeschlagene Methode systematisch zu evaluieren, führen wir Verse-Bench ein – eine neue Benchmark-Datensammlung. Um die Forschung im Bereich der Audio-Video-Generierung voranzutreiben und die Leistungslücke zu state-of-the-art-Modellen wie Veo3 zu schließen, stellen wir unser Modell und den Quellcode öffentlich zur Verfügung. Wir hoffen, dass dieser Beitrag der breiteren Forschungsgemeinschaft zugutekommt. Projektseite: this https URL.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp