Apprentissage de représentations par maximisation de l'information mutuelle entre les vues

Nous proposons une approche d'apprentissage de représentations auto-supervisées basée sur la maximisation de l'information mutuelle entre les caractéristiques extraites à partir de vues multiples d'un contexte partagé. Par exemple, on peut produire plusieurs vues d'un contexte spatio-temporel local en l'observant depuis différentes positions (par exemple, des positions de caméra au sein d'une scène) et par le biais de différents modes sensoriels (par exemple, tactile, auditif ou visuel). Ou bien, une image d'ImageNet peut fournir un contexte à partir duquel on génère plusieurs vues en appliquant répétitivement des techniques d'augmentation de données. La maximisation de l'information mutuelle entre les caractéristiques extraites à partir de ces vues nécessite la capture d'informations concernant des facteurs de haut niveau dont l'influence s'étend sur plusieurs vues -- par exemple, la présence d'objets spécifiques ou l'occurrence d'événements particuliers.En suivant notre approche proposée, nous avons développé un modèle qui apprend des représentations d'images qui surpassent considérablement les méthodes antérieures pour les tâches que nous considérons. Notamment, en utilisant l'apprentissage auto-supervisé, notre modèle apprend des représentations atteignant une précision de 68,1 % sur ImageNet avec une évaluation linéaire standard. Ceci dépasse les résultats précédents de plus de 12 % et les résultats simultanés de 7 %. Lorsque nous étendons notre modèle pour utiliser des représentations basées sur des mélanges, un comportement de segmentation apparaît comme un effet secondaire naturel. Notre code est disponible en ligne : https://github.com/Philip-Bachman/amdim-public.