Apprentissage généralisé zéro-shot audiovisuel avec attention intermodale et langage

L'apprentissage de la classification de données vidéo appartenant à des classes non incluses dans les données d'entraînement, c'est-à-dire l'apprentissage par zéro-shot basé sur la vidéo, est un défi. Nous supposons que l'alignement naturel entre les modalités audio et visuelle dans les données vidéo fournit un signal d'entraînement riche pour l'apprentissage de représentations multi-modales discriminantes. En nous concentrant sur la tâche relativement peu explorée de l'apprentissage par zéro-shot audio-visuel, nous proposons d'apprendre des représentations multi-modales à partir des données audio-visuelles en utilisant une attention croisée et d'exploiter les plongements textuels des étiquettes pour transférer les connaissances des classes vues vers les classes non vues.Allant plus loin, dans notre cadre généralisé d'apprentissage par zéro-shot audio-visuel, nous incluons toutes les classes d'entraînement dans l'espace de recherche au moment du test, ce qui agit comme des distracteurs et augmente la difficulté tout en rendant le cadre plus réaliste. En raison du manque d'un benchmark unifié dans ce domaine, nous introduisons un benchmark (généralisé) d'apprentissage par zéro-shot sur trois jeux de données audio-visuelles de tailles et de difficultés variées : VGGSound, UCF et ActivityNet, en veillant à ce que les classes test non vues n'apparaissent pas dans le jeu de données utilisé pour l'entraînement supervisé des modèles profonds de base.En comparant plusieurs méthodes pertinentes et récentes, nous montrons que notre modèle AVCA proposé atteint des performances de pointe sur les trois jeux de données. Le code et les données sont disponibles à l'adresse \url{https://github.com/ExplainableML/AVCA-GZSL}.