HyperAIHyperAI
il y a 3 mois

La correspondance de mémoire n’est pas suffisante : amélioration conjointe de la correspondance de mémoire et du décodage pour la segmentation d’objets vidéo

Jintu Zheng, Yun Liang, Yuqing Zhang, Wanchao Su
La correspondance de mémoire n’est pas suffisante : amélioration conjointe de la correspondance de mémoire et du décodage pour la segmentation d’objets vidéo
Résumé

Les méthodes de segmentation d'objets vidéo basées sur la mémoire modélisent plusieurs objets sur de longues durées temporelles et spatiales en établissant une banque de mémoire, ce qui leur permet d'atteindre des performances remarquables. Toutefois, elles peinent à surmonter les mauvaises correspondances et sont sujettes à la perte d'informations critiques, entraînant ainsi une confusion entre différents objets. Dans cet article, nous proposons une approche efficace qui améliore conjointement les étapes de correspondance et de décodage afin de réduire le problème des fausses correspondances. Pour l'étape de correspondance mémoire, nous introduisons un mécanisme conscient du coût, qui atténue les erreurs mineures dans la mémoire à court terme, ainsi qu'une correspondance croisée parallèle à plusieurs échelles pour la mémoire à long terme, permettant ainsi de construire des espaces de correspondance étendus adaptés à différentes échelles d'objets. Pour l'étape de décodage de lecture, nous mettons en œuvre un mécanisme compensatoire visant à restaurer les informations essentielles manquantes lors de l'étape de correspondance. Notre méthode atteint des performances exceptionnelles sur plusieurs benchmarks populaires (par exemple, DAVIS 2016&2017 Val : 92,4 % & 88,1 %, DAVIS 2017 Test : 83,9 %), et obtient respectivement 84,8 % et 84,6 % sur YouTubeVOS 2018&2019 Val.