ViNet : Repousser les limites de la modalité visuelle pour la prédiction de la salience audiovisuelle

Nous proposons l'architecture ViNet pour la prédiction de la salience audiovisuelle. ViNet est une architecture d'encodeur-décodeur entièrement convolutive. L'encodeur utilise des caractéristiques visuelles provenant d'un réseau formé pour la reconnaissance d'actions, tandis que le décodeur infère une carte de salience par interpolation trilinéaire et convolutions 3D, en combinant des caractéristiques de plusieurs hiérarchies. L'architecture globale de ViNet est conceptuellement simple ; elle est causale et fonctionne en temps réel (60 images par seconde). ViNet ne prend pas l'audio comme entrée et surpasse néanmoins les modèles de prédiction de salience audiovisuelle les plus avancés à ce jour sur neuf jeux de données différents (trois jeux de données uniquement visuels et six jeux de données audiovisuels). ViNet dépasse également les performances humaines sur les métriques CC, SIM et AUC pour le jeu de données AVE, et, à notre connaissance, c'est le premier réseau à y parvenir. Nous explorons également une variante de l'architecture ViNet en intégrant des caractéristiques audio dans le décodeur. À notre surprise, après un entraînement suffisant, le réseau devient indifférent à l'entrée audio et fournit la même sortie quel que soit l'input. De manière intéressante, nous observons un comportement similaire dans les modèles précédents les plus avancés \cite{tsiami2020stavis} pour la prédiction de salience audiovisuelle. Nos résultats contrastent avec les travaux antérieurs sur la prédiction de salience audiovisuelle basée sur l'apprentissage profond, suggérant une voie claire pour des explorations futures intégrant l'audio d'une manière plus efficace. Le code source et les modèles pré-entraînés sont disponibles à l'adresse suivante : https://github.com/samyak0210/ViNet.