Temporal aligniertes Audio für Videos mit Autoregression

Wir stellen V-AURA vor, das erste autoregressive Modell, das eine hohe zeitliche Ausrichtung und Relevanz bei der Video-zu-Audio-Generierung erreicht. V-AURA verwendet einen hochfrequenten visuellen Feature-Extractor und eine multimodale Audio-Visuelle Feature-Fusionsstrategie, um feingranulare visuelle Bewegungsereignisse zu erfassen und eine präzise zeitliche Ausrichtung sicherzustellen. Zudem schlagen wir VisualSound vor, ein Benchmark-Datensatz mit hoher audiovisueller Relevanz. VisualSound basiert auf VGGSound, einem Video-Datensatz, der aus YouTube extrahierte Samples im natürlichen Umfeld enthält. Während der Kuration entfernen wir Samples, bei denen auditive Ereignisse nicht mit den visuellen Ereignissen übereinstimmen. V-AURA übertrifft die aktuellen state-of-the-art-Modelle in Bezug auf zeitliche Ausrichtung und semantische Relevanz, während es vergleichbare Audiot qualities beibehält. Code, Samples, VisualSound und Modelle sind unter https://v-aura.notion.site verfügbar.