Embeddings Multimodaux Coordonnés pour la Classification et la Recherche Zéro-shot Généralisées de Vidéos Audiovisuelles

Nous présentons une approche multimodale audiovisuelle pour la tâche d'apprentissage par zéro-shot (ZSL) en classification et recherche de vidéos. Bien que l'apprentissage par zéro-shot ait été largement étudié ces dernières années, il a principalement été limité à la modalité visuelle et aux images. Nous démontrons que les modalités audio et visuelle sont toutes deux essentielles pour l'apprentissage par zéro-shot des vidéos. Comme un ensemble de données adapté à cette tâche n'est actuellement pas disponible, nous avons également construit un jeu de données multimodal approprié comprenant 33 classes avec 156 416 vidéos, tirées d'un ensemble de données existant sur les événements sonores à grande échelle. Nous montrons empiriquement que les performances s'améliorent en ajoutant la modalité audio pour les deux tâches d'apprentissage par zéro-shot en classification et en recherche, lorsque des méthodes d'apprentissage d'embeddings multimodales sont utilisées. Nous proposons également une nouvelle méthode pour prédire la modalité « dominante » en utilisant un réseau d'attention modale appris conjointement. L'attention est apprise dans un cadre semi-supervisé, ce qui nous dispense de toute étiquetage explicite supplémentaire pour les modalités. Nous fournissons une validation qualitative de l'attention spécifique à chaque modalité, qui généralise également avec succès aux classes de test inconnues.