Segmentation vidéo d'objets de référence à granularité multiple guidée par le spectre

Les techniques actuelles de segmentation d'objets vidéo par référence (R-VOS) extraient des noyaux conditionnels à partir de caractéristiques vision-langage encodées (à faible résolution) afin de segmenter des caractéristiques décodées à haute résolution. Nous avons constaté que cela entraîne un important décalage de caractéristiques, que les noyaux de segmentation peinent à percevoir durant le calcul en avant. Ce phénomène nuit significativement à la capacité des noyaux de segmentation. Pour résoudre ce problème de décalage, nous proposons une approche spectrale-guidée à multi-granularité (SgMg), qui effectue la segmentation directement sur les caractéristiques encodées et utilise des détails visuels pour affiner davantage les masques. En outre, nous introduisons une fusion croisée guidée par le spectre (SCF), qui permet des interactions globales intra-trame dans le domaine spectral afin d’obtenir une représentation multimodale efficace. Enfin, nous étendons SgMg pour permettre la R-VOS à plusieurs objets, un nouveau paradigme qui permet la segmentation simultanée de plusieurs objets référencés dans une vidéo. Cette approche non seulement accélère considérablement la R-VOS, mais la rend également plus pratique. Des expérimentations étendues montrent que SgMg atteint un état de l’art sur quatre jeux de données vidéo, dépassant le meilleur concurrent de 2,8 points de pourcentage sur Ref-YouTube-VOS. Notre version étendue de SgMg permet la R-VOS à plusieurs objets, fonctionne environ trois fois plus vite tout en maintenant des performances satisfaisantes. Le code est disponible à l’adresse suivante : https://github.com/bo-miao/SgMg.