Segmentation d'Objets Vidéo Interactive Modulaire : De l'Interaction à la Masque, Propagation et Fusion Consciente des Différences

Nous présentons le cadre Modular interactive VOS (MiVOS), qui dissocie l'interaction-masque et la propagation du masque, permettant une meilleure généralisation et de meilleures performances. Formés séparément, le module d'interaction convertit les interactions de l'utilisateur en un masque d'objet, qui est ensuite propagé temporellement par notre module de propagation à l'aide d'une nouvelle stratégie de filtrage top-$k$ pour lire la mémoire espace-temps. Pour prendre efficacement en compte l'intention de l'utilisateur, nous proposons un nouveau module difference-aware visant à apprendre comment fusionner correctement les masques avant et après chaque interaction, ces dernières étant alignées avec les images cibles grâce à la mémoire espace-temps. Nous évaluons notre méthode tant qualitativement que quantitativement avec différentes formes d'interactions utilisateur (par exemple, des griffonnages, des clics) sur DAVIS pour montrer que notre méthode surpasses les algorithmes actuels de pointe tout en nécessitant moins d'interactions par image, avec l'avantage supplémentaire de se généraliser à différents types d'interactions utilisateur. Nous contribuons également à la recherche future en fournissant un vaste ensemble de données synthétiques VOS comprenant une segmentation précise au pixel de 4,8 millions d'images, accompagné de nos codes sources.