Apprentissage de caractéristiques discriminantes avec un CRF pour la segmentation non supervisée d'objets vidéo

Dans cet article, nous introduisons un nouveau réseau, appelé réseau de caractéristiques discriminantes (DFNet), afin de traiter la tâche de segmentation non supervisée des objets vidéo. Pour capturer les corrélations intrinsèques entre les cadres vidéo, nous apprenons des caractéristiques discriminantes (D-caractéristiques) à partir des images d'entrée, qui révèlent la distribution des caractéristiques sous un angle global. Ces D-caractéristiques sont ensuite utilisées pour établir des correspondances avec toutes les caractéristiques de l'image de test dans un cadre de champ aléatoire conditionnel (CRF), permettant ainsi d'imposer une cohérence entre les pixels. Les expériences montrent que DFNet surpasse largement les méthodes de pointe, atteignant un score moyen d’IoU de 83,4 % et se classant en tête du classement DAVIS-2016, tout en utilisant beaucoup moins de paramètres et en offrant une efficacité bien supérieure pendant la phase d’inférence. Nous évaluons également DFNet sur le jeu de données FBMS et sur le jeu de données de saliency vidéo ViSal, où il atteint un nouveau record d’état de l’art. Pour démontrer davantage la généralisabilité de notre cadre, DFNet est également appliqué à la tâche de co-segmentation d’objets dans les images. Des expériences menées sur un jeu de données exigeant, PASCAL-VOC, révèlent l’efficacité supérieure de DFNet. Les expérimentations approfondies confirment que DFNet est capable de capturer et d’exploiter les relations sous-jacentes entre images, tout en identifiant les objets de premier plan communs.