HyperAIHyperAI
il y a 2 mois

DVIS-DAQ : Amélioration de la segmentation vidéo par des requêtes d’ancre dynamiques

Yikang Zhou; Tao Zhang; Shunping Ji; Shuicheng Yan; Xiangtai Li
DVIS-DAQ : Amélioration de la segmentation vidéo par des requêtes d’ancre dynamiques
Résumé

Les méthodes modernes de segmentation vidéo adoptent des requêtes d'objets pour effectuer l'association inter-images et montrent des performances satisfaisantes dans le suivi d'objets apparaissant continuellement, malgré les mouvements à grande échelle et les occultations temporaires. Cependant, elles sous-performent toutes lorsqu'il s'agit d'objets qui apparaissent ou disparaissent de manière nouvelle, phénomènes courants dans le monde réel, car elles tentent de modéliser l'émergence et la disparition des objets par des transitions de caractéristiques entre les requêtes d'arrière-plan et celles du premier plan, qui présentent des écarts significatifs. Nous introduisons les Requêtes d'Ancre Dynamiques (DAQ) pour réduire cet écart de transition entre les requêtes d'ancre et cibles en générant dynamiquement des requêtes d'ancre basées sur les caractéristiques des candidats potentiels. De plus, nous proposons une stratégie de Simulation d'Émergence et de Disparition au Niveau des Requêtes (EDS), qui libère le potentiel des DAQ sans aucun coût supplémentaire. Enfin, nous combinons nos DAQ et EDS proposés avec DVIS pour obtenir DVIS-DAQ. De nombreuses expériences démontrent que DVIS-DAQ atteint un nouveau niveau de pointe (SOTA) en termes de performance sur cinq benchmarks principaux de segmentation vidéo. Le code source et les modèles sont disponibles à l'adresse \url{https://github.com/SkyworkAI/DAQ-VS}.