Segmentation d'objets vidéo référencés avec cohérence temporelle et mémoire hybride

Les méthodes de segmentation d'objets vidéo par référence (R-VOS) font face à des défis pour maintenir une segmentation d'objets cohérente en raison de la variabilité du contexte temporel et de la présence d'autres objets visuellement similaires. Nous proposons un paradigme R-VOS de bout en bout qui modélise explicitement la cohérence temporelle des instances en parallèle avec la segmentation par référence. Plus précisément, nous introduisons une nouvelle mémoire hybride qui facilite la collaboration inter-images pour un appariement et une propagation spatio-temporels robustes. Les caractéristiques des images dotées de masques de référence générés automatiquement et de haute qualité sont propagées pour segmenter les images restantes, basées sur une association multi-granulaire, afin d'atteindre une R-VOS temporellement cohérente. De plus, nous proposons une nouvelle métrique appelée Score de Cohérence des Masques (SCM) [Mask Consistency Score] pour évaluer la cohérence temporelle de la segmentation vidéo. De nombreuses expériences montrent que notre approche améliore considérablement la cohérence temporelle, conduisant à des performances classées au sommet sur des benchmarks populaires d'R-VOS, tels que Ref-YouTube-VOS (67,1 %) et Ref-DAVIS17 (65,6 %). Le code est disponible à l'adresse suivante : https://github.com/bo-miao/HTR.