Réseau hiérarchique d'alignement de mémoire pour la segmentation d'objets vidéo

Nous présentons le Réseau de Correspondance Mémoire Hiérarchique (HMMN) pour la segmentation d'objets vidéo semi-supervisée. Inspiré d'une méthode récente basée sur la mémoire [33], nous proposons deux modules avancés de lecture de mémoire permettant d’effectuer cette lecture à plusieurs échelles tout en exploitant la régularité temporelle. Nous introduisons d’abord un module de correspondance mémoire guidé par noyau, qui remplace la lecture dense non-localisée de la mémoire couramment utilisée dans les méthodes antérieures basées sur la mémoire. Ce module impose une contrainte de régularité temporelle lors de la lecture de la mémoire, permettant ainsi une récupération précise des informations. Plus important encore, nous proposons un schéma hiérarchique de correspondance mémoire, ainsi qu’un module de correspondance mémoire guidé par les k plus proches voisins, dans lequel la lecture de mémoire à une échelle fine est guidée par celle effectuée à une échelle grossière. Grâce à ce module, nous réalisons efficacement une lecture de mémoire à plusieurs échelles et exploitons simultanément les caractéristiques sémantiques de haut niveau et les caractéristiques fines de bas niveau pour prédire des masques d’objets détaillés. Notre réseau atteint des performances de pointe sur les ensembles de validation de DAVIS 2016/2017 (90,8 % et 84,7 %) et YouTube-VOS 2018/2019 (82,6 % et 82,5 %), ainsi que sur l’ensemble de test-dev de DAVIS 2017 (78,6 %). Le code source et les modèles sont disponibles en ligne : https://github.com/Hongje/HMMN.