Regarder Avant de Corréler : la Compréhension des Instances est Cruciale dans la Segmentation d'Objets Vidéo

L'exploration du couplage dense entre le cadre actuel et les cadres passés pour la modélisation de contexte à longue portée a récemment démontré des résultats impressionnants dans le domaine du segmention d'objets vidéo (VOS) grâce aux méthodes basées sur la mémoire. Cependant, en raison de leur manque de capacité à comprendre les instances, ces approches sont souvent fragiles face aux grandes variations d'apparence ou aux changements de point de vue résultant des mouvements des objets et des caméras. Dans cet article, nous soutenons que la compréhension des instances est cruciale dans le VOS, et que son intégration avec le couplage basé sur la mémoire peut bénéficier d'une synergie, ce qui est intuitivement logique en considérant la définition de la tâche VOS, c'est-à-dire l'identification et le segmention d'instances d'objets au sein d'une vidéo. Pour atteindre cet objectif, nous présentons un réseau à deux branches pour le VOS, où la branche de segmention d'instances (IS) basée sur les requêtes s'intéresse aux détails des instances du cadre actuel, tandis que la branche VOS effectue un couplage spatio-temporel avec la banque de mémoire. Nous utilisons les requêtes d'objets bien apprises de la branche IS pour injecter des informations spécifiques à l'instance dans la clé de requête, permettant ainsi une correspondance augmentée par l'instance plus poussée. De plus, nous introduisons un bloc de fusion multi-chemin pour combiner efficacement le rappel mémoire avec les caractéristiques multi-échelles issues du décodeur de segmention d'instances, intégrant ainsi des caractéristiques instance-aware à haute résolution pour produire les résultats finaux de segmention. Notre méthode obtient des performances state-of-the-art sur DAVIS 2016/2017 val (92,6 % et 87,1 %), DAVIS 2017 test-dev (82,8 %) et YouTube-VOS 2018/2019 val (86,3 % et 86,3 %), surpassant nettement les méthodes alternatives.