il y a 17 jours

Un cadre général pour la segmentation d'instances vidéo

Miran Heo, Sukjun Hwang, Jeongseok Hyun, Hanjung Kim, Seoung Wug Oh, Joon-Young Lee, Seon Joo Kim

Résumé

La gestion des vidéos longues présentant des séquences complexes et fortement occluées est récemment devenue un nouveau défi au sein de la communauté du segmentation d'instances vidéo (VIS). Toutefois, les méthodes existantes présentent des limites pour relever ce défi. Nous soutenons que le principal goulot d'étranglement des approches actuelles réside dans l'écart entre l'entraînement et l'inference. Pour combler efficacement cet écart, nous proposons un cadre généralisé pour le VIS, nommé GenVIS, qui atteint des performances de pointe sur des benchmarks exigeants sans nécessiter de architectures complexes ni de post-traitements supplémentaires. La contribution principale de GenVIS réside dans sa stratégie d'apprentissage, incluant un pipeline d'entraînement basé sur des requêtes pour un apprentissage séquentiel, ainsi qu'une nouvelle méthode d'attribution des étiquettes cibles. Par ailleurs, nous introduisons une mémoire capable d'acquérir efficacement des informations à partir des états antérieurs. Grâce à cette nouvelle perspective, centrée sur la construction de relations entre des trames ou clips distincts, GenVIS peut être exécuté de manière flexible, tant en mode en ligne qu'en mode semi-en ligne. Nous évaluons notre approche sur des benchmarks populaires de VIS, obtenant des résultats de pointe sur YouTube-VIS 2019/2021/2022 ainsi que sur Occluded VIS (OVIS). Notamment, nous surpassons largement l'état de l'art sur le benchmark long de VIS (OVIS), en améliorant de 5,6 points AP avec un backbone ResNet-50. Le code est disponible à l'adresse suivante : https://github.com/miranheo/GenVIS.