Apprentissage non supervisé de caractéristiques par discrimination d'instances non paramétrique

Les classificateurs basés sur les réseaux de neurones entraînés sur des données munies d’étiquettes de classe peuvent également capturer une similarité visuelle apparente entre les catégories, même sans être explicitement orientés dans ce sens. Nous étudions si cette observation peut être étendue au-delà du cadre classique de l’apprentissage supervisé : peut-on apprendre une bonne représentation de caractéristiques qui capture la similarité apparente entre des instances, plutôt que entre des classes, en ne demandant simplement qu’elles soient discriminantes au niveau des instances individuelles ? Nous formalisons cette intuition comme un problème de classification non paramétrique au niveau de l’instance, et utilisons l’estimation contrastive du bruit pour surmonter les défis computationnels liés au grand nombre de classes d’instances. Nos résultats expérimentaux démontrent que, dans un cadre d’apprentissage non supervisé, notre méthode dépasse largement l’état de l’art sur la classification ImageNet. Notre approche se distingue également par une amélioration constante de la performance sur les données de test avec une augmentation de la quantité de données d’entraînement et l’utilisation de architectures de réseau plus performantes. En affinant les caractéristiques apprises, nous obtenons par ailleurs des résultats compétitifs pour les tâches d’apprentissage semi-supervisé et de détection d’objets. Notre modèle non paramétrique est extrêmement compact : avec 128 caractéristiques par image, notre méthode n’exige qu’un stockage de 600 Mo pour un million d’images, permettant ainsi une recherche de plus proches voisins rapide au moment de l’exécution.