Réseaux de Clustering Multimodaux pour l'Apprentissage Auto-supervisé à partir de Vidéos Non Étiquetées

L'apprentissage auto-supervisé multimodal attire de plus en plus l'attention car il permet non seulement d'entraîner de grands réseaux sans supervision humaine, mais aussi de rechercher et de récupérer des données à travers différentes modalités. Dans ce contexte, cet article propose un cadre d'entraînement auto-supervisé qui apprend un espace d'embedding multimodal commun. En plus de partager des représentations entre différentes modalités, ce cadre impose un regroupement d'instances sémantiquement similaires. Pour atteindre cet objectif, nous étendons le concept d'apprentissage contrastif au niveau des instances avec une étape de clustering multimodal dans la chaîne d'entraînement afin de capturer les similarités sémantiques entre les modalités. L'espace d'embedding résultant permet la recherche et la récupération d'échantillons à travers toutes les modalités, même dans des jeux de données inédits et différents domaines. Pour évaluer notre approche, nous entraînons notre modèle sur le jeu de données HowTo100M et évaluons ses capacités de recherche zéro-shot dans deux domaines difficiles, à savoir la recherche texte-vidéo (text-to-video) et la localisation temporelle des actions, montrant des résultats de pointe sur quatre jeux de données différents.