Réseaux Multimodaux Autonomes et Polyvalents

Les vidéos sont une source riche de supervision multi-modale. Dans cette étude, nous apprenons des représentations en utilisant l'auto-supervision en exploitant trois modalités naturellement présentes dans les vidéos : les flux visuels, audio et linguistiques. À cet effet, nous introduisons le concept d'un réseau multi-modale polyvalent -- un réseau capable de traiter plusieurs modalités et dont les représentations permettent d'effectuer des tâches en aval dans plusieurs modalités. Plus particulièrement, nous explorons la meilleure façon de combiner ces modalités afin de maintenir des représentations détaillées des modalités visuelle et auditive tout en intégrant le texte dans un espace d'embedding commun. Guidés par la polyvalence, nous introduisons également un nouveau processus de déflation, permettant aux réseaux d'être appliqués sans effort aux données visuelles sous forme de vidéo ou d'image statique. Nous montrons comment ces réseaux formés sur de grandes collections de données vidéo non étiquetées peuvent être utilisés pour des tâches impliquant des vidéos, du texte-vidéo, des images et des données audio. Dotés de ces représentations, nous obtenons des performances de pointe sur plusieurs benchmarks difficiles, notamment UCF101, HMDB51, Kinetics600, AudioSet et ESC-50, en comparaison avec les travaux précédents en auto-supervision. Nos modèles sont disponibles au public.