HyperAIHyperAI
il y a 2 mois

De la vision à l'audio et au-delà : Un modèle unifié pour la représentation et la génération audiovisuelles

Su, Kun ; Liu, Xiulong ; Shlizerman, Eli
De la vision à l'audio et au-delà : Un modèle unifié pour la représentation et la génération audiovisuelles
Résumé

La vidéo englobe à la fois des données visuelles et auditives, créant une expérience perceptive riche où ces deux modalités s'intercomplètent. Par conséquent, les vidéos constituent un type de média précieux pour l'étude de l'interaction entre les éléments audio et visuels. Les études antérieures sur les modalités audiovisuelles se sont principalement concentrées soit sur l'apprentissage des représentations audiovisuelles, soit sur la modélisation générative d'une modalité conditionnée par l'autre, créant ainsi une discontinuité entre ces deux branches. Un cadre unifié qui apprend les représentations et génère des modalités n'a pas encore été développé. Dans ce travail, nous présentons un nouveau cadre appelé Vision to Audio and Beyond (VAB) pour combler le fossé entre l'apprentissage des représentations audiovisuelles et la génération vision-to-audio. L'approche clé de VAB est qu'au lieu de travailler avec des images vidéo brutes et des données audio, VAB effectue l'apprentissage des représentations et la modélisation générative dans des espaces latents. Plus précisément, VAB utilise un tokeniseur audio pré-entraîné et un encodeur d'image pour obtenir respectivement des tokens audio et des caractéristiques visuelles. Il effectue ensuite la tâche de pré-entraînement consistant à prédire les tokens audio masqués conditionnés par les caractéristiques visuelles. Cette stratégie d'entraînement permet au modèle d'engager une apprentissage contextuel et une génération simultanée vidéo-to-audio. Après la phase de pré-entraînement, VAB utilise une approche de décodage itératif pour générer rapidement des tokens audio conditionnés par les caractéristiques visuelles. Étant donné que VAB est un modèle unifié, son backbone peut être affiné pour diverses tâches en aval audiovisuelles. Nos expériences mettent en évidence l'efficacité de VAB dans la production d'un son de haute qualité à partir de vidéos, ainsi que sa capacité à acquérir des caractéristiques audiovisuelles sémantiques, aboutissant à des résultats compétitifs en recherche et classification audiovisuelle.

De la vision à l'audio et au-delà : Un modèle unifié pour la représentation et la génération audiovisuelles | Articles de recherche récents | HyperAI