Apprentissage auto-supervisé par regroupement audio-visuel intermodale

Les modalités visuelle et auditive sont fortement corrélées, mais elles contiennent des informations différentes. Leur forte corrélation permet de prédire les sémantiques d'une modalité à partir de l'autre avec une bonne précision. Leurs différences intrinsèques rendent la prédiction intermodale une tâche prétexte potentiellement plus enrichissante pour l'apprentissage auto-supervisé des représentations vidéo et audio par rapport à l'apprentissage intra-modale. Sur cette intuition, nous proposons le Cross-Modal Deep Clustering (XDC), une nouvelle méthode d'apprentissage auto-supervisé qui utilise le clustering non supervisé dans une modalité (par exemple, l'audio) comme signal de supervision pour l'autre modalité (par exemple, la vidéo). Cette supervision intermodale aide XDC à exploiter la corrélation sémantique et les différences entre les deux modalités. Nos expériences montrent que XDC surpasse le clustering mono-modale ainsi que d'autres variantes multimodales. XDC atteint une précision de pointe parmi les méthodes d'apprentissage auto-supervisé sur plusieurs bancs d'essai vidéo et audio. Plus important encore, notre modèle vidéo pré-entraîné sur des données non étiquetées à grande échelle dépasse significativement le même modèle pré-entraîné avec une supervision complète sur ImageNet et Kinetics pour la reconnaissance d'actions sur HMDB51 et UCF101. À notre connaissance, XDC est la première méthode d'apprentissage auto-supervisé qui surpassent le pré-entraînement à grande échelle avec supervision complète pour la reconnaissance d'actions sur la même architecture.