Segmentation à peu de exemples sans apprentissage méta : une bonne inférence transductive suffit-elle ?

Nous montrons que la manière dont l’inférence est effectuée dans les tâches de segmentation à faible exemple a un impact substantiel sur les performances — un aspect souvent négligé dans la littérature au profit du paradigme d’apprentissage métalogique. Nous proposons une inférence transductive pour une image requête donnée, en exploitant les statistiques de ses pixels non étiquetés, en optimisant une nouvelle fonction de perte composée de trois termes complémentaires : i) l’entropie croisée sur les pixels du support étiquetés ; ii) l’entropie de Shannon des postérieurs sur les pixels non étiquetés de l’image requête ; et iii) un régulariseur basé sur la divergence de Kullback-Leibler (KL) globale, fondé sur la proportion prédite de l’arrière-plan. Étant donné que notre inférence repose sur un classifieur linéaire simple des caractéristiques extraites, sa charge computationnelle est comparable à celle de l’inférence inductive et peut être appliquée au-dessus de tout modèle de base entraîné. En abandonnant l’entraînement épisodique et en utilisant uniquement un entraînement standard par entropie croisée sur les classes de base, notre méthode obtient des performances compétitives sur les benchmarks standards dans les scénarios 1-shot. Lorsque le nombre d’exemples disponibles augmente, l’écart de performance s’accentue : sur PASCAL-5i, notre approche réalise respectivement des améliorations de 5 % et 6 % par rapport à l’état de l’art, dans les scénarios 5-shot et 10-shot. En outre, nous introduisons un nouveau cadre incluant des décalages de domaine, où les classes de base et les classes nouvelles sont tirées de jeux de données différents. Notre méthode obtient les meilleures performances dans ce cadre plus réaliste. Notre code est librement disponible en ligne : https://github.com/mboudiaf/RePRI-for-Few-Shot-Segmentation.