HyperAIHyperAI
il y a 2 mois

Video K-Net : Une base simple, puissante et unifiée pour la segmentation vidéo

Xiangtai Li; Wenwei Zhang; Jiangmiao Pang; Kai Chen; Guangliang Cheng; Yunhai Tong; Chen Change Loy
Video K-Net : Une base simple, puissante et unifiée pour la segmentation vidéo
Résumé

Ce document présente Video K-Net, un cadre simple, puissant et unifié pour la segmentation panoptique vidéo entièrement de bout en bout. La méthode s'appuie sur K-Net, une approche qui unifie la segmentation d'images par le biais d'un ensemble de noyaux apprenables. Nous constatons que ces noyaux apprenables issus de K-Net, qui codent les apparences et les contextes des objets, peuvent naturellement associer les instances identiques entre les images d'une vidéo. Inspirés par cette observation, Video K-Net apprend à segmenter et à suivre simultanément les « choses » et les « éléments » dans une vidéo grâce à un modèle d'apparence basé sur des noyaux simples et à des interactions de noyaux trans-temporelles. Malgré sa simplicité, il obtient des résultats de pointe en segmentation panoptique vidéo sur Citscapes-VPS, KITTI-STEP et VIPSeg sans recourir à des techniques complexes. En particulier, sur KITTI-STEP, cette méthode simple peut améliorer les performances précédentes de presque 12 % en termes d'amélioration relative. Sur VIPSeg, Video K-Net réalise presque 15 % d'amélioration relative et atteint un VPQ (Video Panoptic Quality) de 39,8 %. Nous avons également validé sa généralisation en segmentation sémantique vidéo, où nous avons amélioré diverses lignes de base de 2 % sur l'ensemble de données VSPW. De plus, nous avons étendu K-Net à un cadre vidéo au niveau des clips pour la segmentation d'instances vidéo, obtenant ainsi un mAP (mean Average Precision) de 40,5 % avec le squelette ResNet50 et de 54,1 % avec Swin-base sur l'ensemble de validation YouTube-2019. Nous espérons que cette méthode simple mais efficace puisse servir de nouvelle ligne de base flexible dans la conception unifiée de la segmentation vidéo. Le code source et les modèles sont disponibles à l'adresse https://github.com/lxtGH/Video-K-Net.

Video K-Net : Une base simple, puissante et unifiée pour la segmentation vidéo | Articles de recherche récents | HyperAI