Apprentissage semi-supervisé de caractéristiques visuelles par prédiction non paramétrique des affectations de vue à l’aide d’échantillons de support

Cet article propose une nouvelle méthode d’apprentissage par prédiction des affectations de vues à l’aide d’échantillons de support (PAWS). La méthode entraîne un modèle afin de minimiser une perte de cohérence, garantissant que différentes vues d’une même instance non étiquetée reçoivent des pseudo-étiquettes similaires. Ces pseudo-étiquettes sont générées de manière non paramétrique en comparant les représentations des différentes vues d’une image à celles d’un ensemble d’images étiquetées sélectionnées aléatoirement. La distance entre les représentations des vues et celles des images étiquetées est utilisée pour attribuer un poids aux différentes étiquettes de classe, que nous interprétons comme une pseudo-étiquette douce. En intégrant ainsi de manière non paramétrique des échantillons étiquetés, PAWS étend la perte basée sur la métrique de distance utilisée dans les méthodes d’apprentissage auto-supervisé telles que BYOL et SwAV au cadre semi-supervisé. Malgré la simplicité de l’approche, PAWS surpasser d’autres méthodes semi-supervisées sur diverses architectures, établissant un nouveau record d’état de l’art pour un ResNet-50 entraîné sur ImageNet avec seulement 10 % ou 1 % des étiquettes, atteignant respectivement 75,5 % et 66,5 % en précision top-1. PAWS nécessite entre 4 et 12 fois moins d’entraînement que les méthodes précédemment les plus performantes.