Discrimination audiovisuelle d'instances avec accord intermodal

Nous présentons une approche d'apprentissage auto-supervisé pour apprendre des représentations audiovisuelles à partir de vidéos et d'audio. Notre méthode utilise l'apprentissage par contraste pour la discrimination intermodale entre vidéo et audio, et vice versa. Nous démontrons que l'optimisation de la discrimination intermodale, plutôt que de la discrimination intramodale, est cruciale pour apprendre de bonnes représentations à partir de vidéos et d'audio. Grâce à cette intuition simple mais puissante, notre méthode obtient des performances très compétitives lorsqu'elle est affinée sur des tâches de reconnaissance d'actions. De plus, alors que les travaux récents en apprentissage par contraste définissent les échantillons positifs et négatifs comme des instances individuelles, nous généralisons cette définition en explorant l'accord intermodal. Nous regroupons plusieurs instances comme positives en mesurant leur similarité dans les espaces de caractéristiques vidéo et audio. L'accord intermodal crée de meilleurs ensembles positifs et négatifs, ce qui nous permet de calibrer les similarités visuelles en recherchant une discrimination intramodale des instances positives, et d'obtenir des gains significatifs sur les tâches downstream (en aval).