Reconnaissance d'images efficace en données avec le codage prédictif contrastif

Les observateurs humains sont capables d'apprendre à reconnaître de nouvelles catégories d'images à partir de quelques exemples seulement, tandis que réaliser cette tâche avec des modèles artificiels reste un défi ouvert. Nous formulons l'hypothèse que la reconnaissance efficace en termes de données est facilitée par des représentations qui rendent la variabilité des signaux naturels plus prévisible. C'est pourquoi nous reprenons et améliorons le Codage Prédictif Contrastif (Contrastive Predictive Coding), un objectif non supervisé pour l'apprentissage de telles représentations. Cette nouvelle mise en œuvre génère des caractéristiques qui permettent d'atteindre une précision de classification linéaire de pointe sur le jeu de données ImageNet. Lorsqu'elle est utilisée comme entrée pour la classification non linéaire avec des réseaux neuronaux profonds, cette représentation nous permet d'utiliser 2 à 5 fois moins d'étiquettes que les classifieurs entraînés directement sur les pixels des images. Enfin, cette représentation non supervisée améliore considérablement l'apprentissage par transfert pour la détection d'objets sur le jeu de données PASCAL VOC, surpassant les classifieurs pré-entraînés entièrement supervisés sur ImageNet.