Von Vision zu Audio und darüber hinaus: Ein vereinheitlichtes Modell für audiovisuelle Repräsentation und Generierung

Video umfasst sowohl visuelle als auch auditive Daten und schafft eine reichhaltige Wahrnehmungserfahrung, bei der diese beiden Modalitäten sich gegenseitig ergänzen. Daher sind Videos ein wertvolles Medium zur Untersuchung des Wechselspiels zwischen audiovisuellen Elementen. Frühere Studien zu audiovisuellen Modalitäten konzentrierten sich hauptsächlich auf entweder audiovisuelles Repräsentationslernen oder die generative Modellierung einer Modalität unter Berücksichtigung der anderen, was zu einem Bruch zwischen diesen beiden Bereichen führte. Ein vereintes Framework, das sowohl Repräsentationen lernt als auch Modalitäten generiert, wurde bisher noch nicht entwickelt. In dieser Arbeit stellen wir ein neues Framework namens Vision to Audio and Beyond (VAB) vor, das die Lücke zwischen audiovisuellem Repräsentationslernen und visuell bedingter Audiosynthese schließt.Der zentrale Ansatz von VAB besteht darin, dass es anstatt mit rohen Videobildern und Audiodaten in latenten Räumen Repräsentationslernen und generative Modellierung durchführt. Insbesondere verwendet VAB einen vortrainierten Audiotokenizer und einen Bildencoder, um Audiotoken und visuelle Merkmale zu extrahieren. Es führt dann die vortrainierte Aufgabe der visuell bedingten maskierten Audiotoken-Vorhersage durch. Diese Trainingsstrategie ermöglicht dem Modell kontextuelles Lernen und gleichzeitige Video-zu-Audio-Generierung. Nach der Vortrainierungsphase nutzt VAB den iterativen Decodieransatz, um schnell Audiotoken basierend auf visuellen Merkmalen zu generieren. Da VAB ein vereintes Modell ist, kann sein Backbone für verschiedene audiovisuelle Downstream-Tasks feinjustiert werden.Unsere Experimente zeigen die Effizienz von VAB bei der Erzeugung hochwertiger Audioausgaben aus Videos sowie seine Fähigkeit, semantische audiovisuelle Merkmale zu erlernen, was zu wettbewerbsfähigen Ergebnissen in der audiovisuellen Retrieval- und Klassifikation führt.