Réintroduction de l'Objet dans la Segmentation d'Objets Vidéo

Nous présentons Cutie, un réseau de segmentation d'objets vidéo (VOS) avec lecture mémoire au niveau objet, qui réintègre la représentation de l'objet depuis la mémoire dans le résultat de la segmentation d'objets vidéo. Les travaux récents sur la VOS utilisent une lecture mémoire au niveau pixel par le bas, ce qui pose des problèmes en raison du bruit de correspondance, particulièrement en présence de distracteurs, entraînant une performance inférieure sur des données plus complexes. En revanche, Cutie effectue une lecture mémoire au niveau objet par le haut en adaptant un petit ensemble de requêtes d'objets. Grâce à celles-ci, il interagit itérativement avec les caractéristiques pixelaires par le bas via un transformateur d'objets basé sur des requêtes (qt, d'où le nom Cutie). Les requêtes d'objets servent de résumé de haut niveau de l'objet cible, tandis que les cartes de caractéristiques à haute résolution sont conservées pour une segmentation précise. Associée à l'attention masquée avant-plan/arrière-plan, Cutie sépare clairement les sémantiques de l'objet du premier plan et de l'arrière-plan. Sur l'ensemble de données MOSE difficile, Cutie améliore les performances de 8,7 J&F par rapport à XMem avec un temps d'exécution similaire et gagne 4,2 J&F par rapport à DeAOT tout en étant trois fois plus rapide. Le code est disponible à : https://hkchengrex.github.io/Cutie