SimPLE : Exploitation de labels pseudo similaires pour la classification semi-supervisée

Une situation courante dans les tâches de classification consiste à disposer d’un grand volume de données disponibles pour l’entraînement, mais seulement d’une petite partie annotée avec des étiquettes de classe. L’objectif de l’apprentissage semi-supervisé dans ce contexte est d’améliorer la précision de classification en exploitant non seulement les données étiquetées, mais aussi une grande quantité de données non étiquetées. Des travaux récents ont permis des progrès significatifs en explorant la contrainte de cohérence entre des données étiquetées et non étiquetées soumises à différentes augmentations. En suivant cette voie, nous proposons une nouvelle fonction objectif non supervisée qui met l’accent sur une relation peu étudiée : celle existant entre les données non étiquetées à haute confiance qui sont similaires entre elles. La nouvelle perte proposée, appelée Pair Loss, minimise la distance statistique entre les pseudo-étiquettes à haute confiance dont la similarité dépasse un seuil prédéfini. En combinant cette Pair Loss avec les techniques développées par la famille MixMatch, notre algorithme proposé, SimPLE, obtient des gains de performance significatifs par rapport aux méthodes précédentes sur CIFAR-100 et Mini-ImageNet, tout en étant compétitif avec les meilleures méthodes actuelles sur CIFAR-10 et SVHN. En outre, SimPLE surpasser également les méthodes de pointe dans un cadre d’apprentissage par transfert, où les modèles sont initialisés à l’aide de poids pré-entraînés sur ImageNet ou DomainNet-Real. Le code est disponible à l’adresse github.com/zijian-hu/SimPLE.