Autoencodeur masqué audiovisuel contrastif

Dans cet article, nous étendons d'abord le modèle récent de Masqué Auto-Encodeur (MAE) d'une seule modalité aux modalités audiovisuelles multiples. Ensuite, nous proposons le Masqué Auto-Encodeur Audiovisuel Contrastif (CAV-MAE) en combinant l'apprentissage contrastif et la modélisation de données masquées, deux cadres majeurs d'apprentissage auto-supervisé, pour apprendre une représentation audiovisuelle conjointe et coordonnée. Nos expériences montrent que l'objectif d'apprentissage de correspondance audiovisuelle contrastive non seulement permet au modèle de réaliser des tâches de recherche audiovisuelle, mais aide également le modèle à apprendre une meilleure représentation conjointe. Par conséquent, notre CAV-MAE préentraîné entièrement auto-supervisé atteint une nouvelle précision SOTA (State Of The Art) de 65,9 % sur VGGSound et est comparable au meilleur modèle préentraîné supervisé précédent sur AudioSet dans la tâche de classification d'événements audiovisuels. Le code source et les modèles préentraînés sont disponibles à l'adresse suivante : https://github.com/yuangongnd/cav-mae.