Pré-entraînement auto-supervisé des caractéristiques visuelles dans le monde réel

Récemment, des méthodes d'apprentissage auto-supervisé telles que MoCo, SimCLR, BYOL et SwAV ont réduit l’écart par rapport aux méthodes supervisées. Ces résultats ont été obtenus dans un environnement contrôlé, à savoir le jeu de données hautement soigné ImageNet. Toutefois, la prémisse de l’apprentissage auto-supervisé repose sur sa capacité à apprendre à partir de n’importe quelle image aléatoire et de tout ensemble de données non borné. Dans ce travail, nous examinons si l’apprentissage auto-supervisé répond à ses promesses en entraînant de grands modèles sur des images aléatoires non curatrices, sans aucune supervision. Notre modèle final, SElf-supERvised (SEER), basé sur un RegNetY de 1,3 milliard de paramètres entraîné sur 1 milliard d’images aléatoires avec 512 GPU, atteint une précision top-1 de 84,2 %, dépassant ainsi le meilleur modèle pré-entraîné auto-supervisé de 1 %, ce qui confirme que l’apprentissage auto-supervisé fonctionne effectivement dans un cadre réel. De manière intéressante, nous observons également que les modèles auto-supervisés sont de bons apprenants en peu d’exemples, atteignant une précision top-1 de 77,9 % avec accès uniquement à 10 % de ImageNet. Code : https://github.com/facebookresearch/vissl