Regardez, Écoutez et Apprenez

Nous abordons la question suivante : que peut-on apprendre en regardant et en écoutant un grand nombre de vidéos non étiquetées ? Il existe une source précieuse d'information, jusqu'à présent inexploitée, contenue dans la vidéo elle-même -- la correspondance entre les flux visuels et audio. Nous introduisons une nouvelle tâche d'apprentissage appelée « Correspondance Audio-Visuelle » qui utilise cette correspondance. Il est démontré que l'entraînement de réseaux visuels et audio à partir de zéro, sans aucune supervision supplémentaire autre que les vidéos brutes et non contraintes elles-mêmes, permet de résoudre avec succès cette tâche, et, plus intéressamment encore, aboutit à de bonnes représentations visuelles et audio. Ces caractéristiques établissent un nouveau niveau de référence sur deux benchmarks de classification sonore, et se comparent favorablement aux approches auto-supervisées les plus avancées pour la classification sur ImageNet. Nous montrons également que le réseau est capable de localiser des objets dans les deux modalités, ainsi que d'effectuer des tâches de reconnaissance fine.