F2Net : Apprendre à se concentrer sur le premier plan pour la segmentation non supervisée d'objets vidéo

Bien que les méthodes basées sur l’apprentissage profond aient atteint des progrès importants dans la segmentation d’objets vidéo non supervisée, les scénarios complexes (par exemple, similitude visuelle, occlusions, changements d’apparence) restent mal gérés. Pour atténuer ces difficultés, nous proposons un nouveau réseau, le Focus on Foreground Network (F2Net), qui exploite en profondeur les détails intra- et inter-images pour les objets en premier plan, améliorant ainsi efficacement les performances de segmentation. Plus précisément, notre architecture se compose de trois composants principaux : un module d’encodeur siamois, un module de diffusion d’apparence guidée par le centre, et un module de fusion dynamique d’informations. Tout d’abord, nous utilisons un encodeur siamois pour extraire les représentations de caractéristiques des paires d’images (image de référence et image courante). Ensuite, nous concevons un module de diffusion d’apparence guidée par le centre afin de capturer les caractéristiques inter-images (correspondances denses entre l’image de référence et l’image courante), les caractéristiques intra-images (correspondances denses à l’intérieur de l’image courante) et les caractéristiques sémantiques originales de l’image courante. Plus précisément, nous introduisons une branche de prédiction du centre pour estimer la position du centre de l’objet en premier plan dans l’image courante, et nous utilisons ces informations de point central comme prior spatial pour renforcer l’extraction des caractéristiques inter- et intra-images, ce qui permet ainsi une concentration significative des représentations de caractéristiques sur les objets en premier plan. Enfin, nous proposons un module de fusion dynamique d’informations pour sélectionner automatiquement les caractéristiques les plus pertinentes parmi les trois niveaux de caractéristiques mentionnés précédemment. Des expériences étendues sur les jeux de données DAVIS2016, Youtube-Objects et FBMS montrent que notre F2Net atteint des performances de pointe, avec une amélioration notable par rapport aux méthodes existantes.