HyperAIHyperAI
il y a 2 mois

DVIS++ : Cadre amélioré découplé pour la segmentation universelle des vidéos

Tao Zhang; Xingye Tian; Yikang Zhou; Shunping Ji; Xuebo Wang; Xin Tao; Yuan Zhang; Pengfei Wan; Zhongyuan Wang; Yu Wu
DVIS++ : Cadre amélioré découplé pour la segmentation universelle des vidéos
Résumé

Nous présentons le cadre de \textbf{D}ésegmentation \textbf{VI}déo \textbf{S}éparée (DVIS), une nouvelle approche pour la tâche ardue de la segmentation universelle des vidéos, incluant la segmentation d'instances vidéo (VIS), la segmentation sémantique vidéo (VSS) et la segmentation panoramique vidéo (VPS). Contrairement aux méthodes précédentes qui modélisent la segmentation vidéo de manière end-to-end, notre approche sépare la segmentation vidéo en trois sous-tâches en cascade : segmentation, suivi et affinement. Ce design de séparation permet une modélisation plus simple et efficace des représentations spatio-temporelles des objets, en particulier dans des scènes complexes et des vidéos longues. En conséquence, nous introduisons deux nouveaux composants : le traceur référentiel et l'affineur temporel. Ces composants suivent les objets image par image et modélisent les représentations spatio-temporelles basées sur des caractéristiques pré-alignées. Pour améliorer les capacités de suivi de DVIS, nous proposons une stratégie d'entraînement débruitante et introduisons l'apprentissage par contraste, aboutissant à un cadre plus robuste nommé DVIS++. De plus, nous évaluons DVIS++ dans diverses configurations, y compris avec un vocabulaire ouvert et en utilisant une tronçonneuse pré-entraînée figée. En intégrant CLIP à DVIS++, nous présentons OV-DVIS++, le premier cadre de segmentation universelle vidéo à vocabulaire ouvert. Nous menons des expériences exhaustives sur six benchmarks principaux, incluant les jeux de données VIS, VSS et VPS. Grâce à une architecture unifiée, DVIS++ dépasse significativement les méthodes spécialisées de pointe sur ces benchmarks dans les configurations à vocabulaire fermé comme ouvert. Code :~\url{https://github.com/zhang-tao-whu/DVIS_Plus}.

DVIS++ : Cadre amélioré découplé pour la segmentation universelle des vidéos | Articles de recherche récents | HyperAI