Pousser les limites des ResNets auto-entraînés : pouvons-nous surpasser l'apprentissage supervisé sans étiquettes sur ImageNet ?

Malgré les progrès récents réalisés par les méthodes auto-supervisées dans l'apprentissage de représentations à l'aide de réseaux résiduels, elles peinent encore à atteindre les performances de l'apprentissage supervisé sur le benchmark ImageNet pour la classification d'images, ce qui limite leur application dans des contextes exigeant une haute performance. S'appuyant sur des résultats théoriques antérieurs issus de ReLIC [Mitrovic et al., 2021], nous intégrons des biais inductifs supplémentaires dans l'apprentissage auto-supervisé. Nous proposons une nouvelle méthode d'apprentissage auto-supervisé de représentations, appelée ReLICv2, qui combine une perte explicite d'invariance avec une objectif contrastif appliqué à un ensemble varié de vues de données correctement construites, afin d'éviter l'apprentissage de corrélations artificielles et d'obtenir des représentations plus informatives. ReLICv2 atteint une précision top-1 de $77,1\%$ sur ImageNet lors d'une évaluation linéaire avec un ResNet50, surpassant ainsi l'état de l'art précédent de $+1,5\%$ en valeur absolue ; sur des modèles ResNet plus grands, ReLICv2 atteint jusqu'à $80,6\%$, dépassant les approches auto-supervisées antérieures avec des marges allant jusqu'à $+2,3\%$. Plus significativement, ReLICv2 est la première méthode d'apprentissage non supervisé de représentations à surpasser de manière cohérente la méthode supervisée dans un comparatif direct sur une gamme d'architectures ResNet. En utilisant ReLICv2, nous obtenons également des représentations plus robustes et plus transférables, qui généralisent mieux hors distribution que les travaux antérieurs, tant pour la classification d'images que pour la segmentation sémantique. Enfin, nous démontrons que, malgré l'utilisation d'encodeurs ResNet, ReLICv2 est compétitive avec les meilleurs modèles auto-supervisés basés sur les transformers visuels.