HyperAIHyperAI
il y a 17 jours

VITA : Segmentación d'instances vidéo par association de tokens objets

Miran Heo, Sukjun Hwang, Seoung Wug Oh, Joon-Young Lee, Seon Joo Kim
VITA : Segmentación d'instances vidéo par association de tokens objets
Résumé

Nous introduisons un nouveau paradigme pour la segmentation d’instances vidéo hors ligne (VIS), fondé sur l’hypothèse selon laquelle les informations explicites orientées objet peuvent constituer un indice puissant pour comprendre le contexte de toute la séquence. À cette fin, nous proposons VITA, une architecture simple construite à partir d’un modèle d’instance de segmentation d’image basé sur un Transformer disponible en standard. Plus précisément, nous utilisons un détecteur d’objets d’image afin de distiller des contextes spécifiques aux objets dans des jetons d’objets. VITA atteint une compréhension au niveau de la vidéo en associant des jetons d’objets au niveau des trames, sans recourir aux caractéristiques spatio-temporelles du modèle de base. En établissant efficacement des relations entre objets à partir d’informations condensées, VITA atteint l’état de l’art sur les benchmarks VIS avec un squelette ResNet-50 : 49,8 AP et 45,7 AP sur YouTube-VIS 2019 & 2021, ainsi que 19,6 AP sur OVIS. De plus, grâce à sa structure fondée sur des jetons d’objets, indépendante des caractéristiques du squelette, VITA présente plusieurs avantages pratiques non explorés par les méthodes antérieures de VIS hors ligne : traitement de vidéos longues et à haute résolution avec une seule GPU standard, et gel d’un détecteur au niveau des trames entraîné sur des données d’image. Le code est disponible à l’adresse suivante : https://github.com/sukjunhwang/VITA.