Maskierte generative Video-to-Audio-Transformer mit verbessertem Synchronismus

Die Video-to-Audio (V2A) Generierung nutzt rein visuelle Videoeigenschaften, um plausibel klingende Geräusche zu erzeugen, die zur Szene passen. Von entscheidender Bedeutung ist, dass die Anfangszeiten der generierten Töne mit den ihnen zugeordneten visuellen Aktionen übereinstimmen, andernfalls entstehen unnatürliche Synchronisationsartefakte. Kürzliche Arbeiten haben sich mit dem Fortschritt der Konditionierung von Soundgeneratoren auf einzelne Bilder und anschließend auf Videoeigenschaften beschäftigt, wobei der Fokus auf Qualität und semantischer Übereinstimmung lag, während Synchronisation vernachlässigt wurde, oder durch einen gewissen Verlust an Qualität nur die Verbesserung der Synchronisation angestrebt wurde. In dieser Arbeit schlagen wir ein V2A-Generierungsmodell vor, das MaskVAT genannt wird und eine vollständige Bandbreite hochwertiger allgemeiner Audio-Codierung mit einem sequenzbasierten maskierten Generierungsmodell verbindet. Diese Kombination ermöglicht es, sowohl hohe Audiorate als auch semantische Übereinstimmung und zeitliche Synchronität gleichzeitig zu modellieren. Unsere Ergebnisse zeigen, dass durch die Kombination eines hochwertigen Coders mit geeigneten vorgebildeten Audiovisualeigenschaften und einer sequenzbasierten parallelen Struktur hoch synchronisierte Ergebnisse erzielt werden können, während wir gleichzeitig mit den besten nicht-codierenden generativen Audiomodellen mithalten. Beispiel-Videos und generierte Audiodateien sind unter https://maskvat.github.io verfügbar.