Amélioration de la co-segmentation d’images par apprentissage profond de métriques

L’apprentissage métrique profond (Deep Metric Learning, DML) est particulièrement utile dans les tâches de vision par ordinateur. Dans cet article, nous introduisons pour la première fois le DML dans le cadre de la co-segmentation d’images. Nous proposons une nouvelle perte en triplet dédiée à la segmentation d’images, dénommée IS-Triplet loss (abréviation de Image Segmentation Triplet loss), que nous combinons avec les pertes traditionnelles de segmentation d’images. Contrairement aux tâches classiques de DML qui apprennent une métrique entre images entières, nous traitons chaque pixel comme un échantillon, et utilisons leurs caractéristiques intégrées dans un espace de haute dimension pour former des triplets. En optimisant la perte IS-Triplet, nous cherchons à imposer que la distance entre des pixels appartenant à des catégories différentes soit supérieure à celle entre des pixels de la même catégorie, afin de faciliter la séparation des catégories dans l’espace de caractéristiques de haute dimension. Nous proposons également une stratégie efficace d’échantillonnage de triplets, permettant un calcul réaliste de la perte IS-Triplet. Enfin, la perte IS-Triplet est combinée à trois pertes traditionnelles de segmentation d’images pour effectuer la segmentation. Nous appliquons la méthode proposée à la co-segmentation d’images et la testons sur les jeux de données SBCoseg et Internet. Les résultats expérimentaux montrent que notre approche améliore efficacement la discrimination des catégories des pixels dans l’espace de haute dimension, permettant ainsi aux pertes traditionnelles d’atteindre de meilleurs résultats en segmentation d’images avec un nombre réduit d’époques d’entraînement.