HyperAIHyperAI
il y a 2 mois

Plongement Dynamique Récurrent pour la Segmentation d'Objets Vidéo

Mingxing Li; Li Hu; Zhiwei Xiong; Bang Zhang; Pan Pan; Dong Liu
Plongement Dynamique Récurrent pour la Segmentation d'Objets Vidéo
Résumé

Les réseaux de segmentation d'objets vidéo (VOS) basés sur la mémoire espace-temps (STM) augmentent généralement leur banque de mémoire tous les quelques cadres, ce qui offre des performances excellentes. Cependant, 1) le matériel ne peut pas supporter les exigences croissantes en mémoire à mesure que la longueur de la vidéo augmente. 2) Le stockage d'une grande quantité d'informations introduit inévitablement beaucoup de bruit, ce qui n'est pas propice à l'extraction des informations les plus importantes de la banque de mémoire. Dans cet article, nous proposons une empreinte dynamique récurrente (RDE) pour construire une banque de mémoire de taille constante. Plus précisément, nous générons et mettons à jour explicitement l'RDE par le biais du module d'agrégation espace-temps (SAM) proposé, qui exploite l'indice des informations historiques. Pour éviter l'accumulation d'erreurs due à l'utilisation récurrente du SAM, nous proposons une perte de guidage sans biais lors de la phase d'entraînement, ce qui rend le SAM plus robuste dans les vidéos longues. De plus, les masques prédits dans la banque de mémoire sont imparfaits en raison d'une inférence réseau inexacte, ce qui affecte la segmentation du cadre interrogatoire. Pour résoudre ce problème, nous concevons une nouvelle stratégie d'autocorrection permettant au réseau de corriger les empreintes des masques de différentes qualités dans la banque de mémoire. Des expériences approfondies montrent que notre méthode atteint le meilleur compromis entre performance et vitesse. Le code est disponible à l'adresse suivante : https://github.com/Limingxing00/RDE-VOS-CVPR2022.

Plongement Dynamique Récurrent pour la Segmentation d'Objets Vidéo | Articles de recherche récents | HyperAI