HyperAIHyperAI
il y a 2 mois

RefineVIS : Segmentation d'instances vidéo avec raffinement de l'attention temporelle

Andre Abrantes; Jiang Wang; Peng Chu; Quanzeng You; Zicheng Liu
RefineVIS : Segmentation d'instances vidéo avec raffinement de l'attention temporelle
Résumé

Nous présentons un cadre novateur appelé RefineVIS pour le Segmentation d'Instances Vidéo (VIS) qui permet une bonne association d'objets entre les images et des masques de segmentation précis en raffinant itérativement les représentations à l'aide du contexte séquentiel. RefineVIS apprend deux représentations distinctes au-dessus d'un modèle de segmentation d'instances d'images au niveau des images prêt à l'emploi : une représentation d'association responsable de l'association des objets entre les images, et une représentation de segmentation qui produit des masques de segmentation précis. L'apprentissage par contraste est utilisé pour apprendre des représentations d'association temporellement stables. Un module de Raffinement d'Attention Temporelle (TAR) apprend des représentations de segmentation discriminantes en exploitant les relations temporelles et une nouvelle technique de débruitage contrastif temporel. Notre méthode supporte à la fois l'inférence en ligne et hors ligne. Elle atteint une précision de segmentation d'instances vidéo de pointe sur les jeux de données YouTube-VIS 2019 (64,4 AP), YouTube-VIS 2021 (61,4 AP) et OVIS (46,1 AP). Les visualisations montrent que le module TAR peut générer des masques de segmentation d'instances plus précis, particulièrement dans des cas difficiles tels que les objets fortement occultés.