Apprentissage d'une mémoire dynamique sensible à la qualité pour la segmentation d'objets vidéo

Récemment, plusieurs méthodes basées sur la mémoire spatio-temporelle ont vérifié que le stockage de trames intermédiaires et de leurs masques en tant que mémoire est utile pour segmenter les objets cibles dans les vidéos. Cependant, elles se concentrent principalement sur une meilleure correspondance entre la trame actuelle et les trames de mémoire sans porter explicitement attention à la qualité de la mémoire. Par conséquent, les trames avec des masques de segmentation de mauvaise qualité sont susceptibles d'être mémorisées, ce qui entraîne un problème d'accumulation d'erreurs de masque de segmentation et affecte davantage les performances de segmentation. De plus, l'augmentation linéaire du nombre de trames de mémoire avec l'augmentation du nombre de trames limite également la capacité des modèles à traiter des vidéos longues. A cet égard, nous proposons un Réseau Mémoire Dynamique Conscient de la Qualité (QDMN) pour évaluer la qualité de segmentation de chaque trame, permettant au banque de mémoire de stocker sélectivement des trames correctement segmentées afin d'éviter le problème d'accumulation d'erreurs. Ensuite, nous combinons la qualité de segmentation avec la cohérence temporelle pour mettre à jour dynamiquement le banque de mémoire et améliorer ainsi la praticabilité des modèles. Sans recourir à des techniques supplémentaires complexes, notre QDMN atteint une nouvelle performance state-of-the-art sur les benchmarks DAVIS et YouTube-VOS. De plus, des expériences approfondies montrent que le module d'évaluation de la qualité (QAM) proposé peut être appliqué aux méthodes basées sur la mémoire comme plugin générique et améliore considérablement les performances. Notre code source est disponible à l'adresse suivante : https://github.com/workforai/QDMN.