Sélectionner Itérativement un Repère de Référence Simple Rend la Segmentation d'Objets Vidéo Non Supervisée Plus Facile

La segmentation d'objets vidéo non supervisée (UVOS) est un problème de classification binaire par pixel visant à séparer l'objet du premier plan du fond dans une vidéo sans utiliser le masque de vérité terrain (GT) de l'objet du premier plan. La plupart des modèles UVOS précédents utilisent le premier cadre ou la totalité de la vidéo comme cadre de référence pour spécifier le masque de l'objet du premier plan. Notre question est pourquoi le premier cadre devrait être sélectionné comme cadre de référence ou pourquoi la totalité de la vidéo devrait être utilisée pour spécifier le masque. Nous pensons qu'il est possible de choisir un meilleur cadre de référence pour obtenir des performances UVOS supérieures à celles obtenues en utilisant uniquement le premier cadre ou la totalité de la vidéo comme cadre de référence. Dans notre article, nous proposons Easy Frame Selector (EFS). L'EFS nous permet de sélectionner un cadre de référence « facile » qui facilite la segmentation d'objets vidéo (VOS) ultérieure, améliorant ainsi les performances VOS. De plus, nous proposons un nouveau cadre nommé Iterative Mask Prediction (IMP). Dans ce cadre, nous appliquons répétitivement l'EFS à la vidéo donnée et sélectionnons un cadre de référence « encore plus facile » à chaque itération, augmentant progressivement les performances VOS. L'IMP se compose de l'EFS, de la prédiction bidirectionnelle des masques (BMP) et de la mise à jour des informations temporelles (TIU). Grâce au cadre proposé, nous obtenons des performances d'état de l'art sur trois ensembles de基准测试集:DAVIS16、FBMS和SegTrack-V2。(请注意,这里最后的句子部分仍然包含了中文,我将再次进行翻译以确保完全符合要求。)Grâce au cadre proposé, nous obtenons des performances d'état de l'art sur trois ensembles de benchmarks UVOS : DAVIS16, FBMS et SegTrack-V2.