HyperAIHyperAI

Command Palette

Search for a command to run...

Video K-Net : Une base simple, puissante et unifiée pour la segmentation vidéo

Xiangtai Li; Wenwei Zhang; Jiangmiao Pang; Kai Chen; Guangliang Cheng; Yunhai Tong; Chen Change Loy

Résumé

Ce document présente Video K-Net, un cadre simple, puissant et unifié pour la segmentation panoptique vidéo entièrement de bout en bout. La méthode s'appuie sur K-Net, une approche qui unifie la segmentation d'images par le biais d'un ensemble de noyaux apprenables. Nous constatons que ces noyaux apprenables issus de K-Net, qui codent les apparences et les contextes des objets, peuvent naturellement associer les instances identiques entre les images d'une vidéo. Inspirés par cette observation, Video K-Net apprend à segmenter et à suivre simultanément les « choses » et les « éléments » dans une vidéo grâce à un modèle d'apparence basé sur des noyaux simples et à des interactions de noyaux trans-temporelles. Malgré sa simplicité, il obtient des résultats de pointe en segmentation panoptique vidéo sur Citscapes-VPS, KITTI-STEP et VIPSeg sans recourir à des techniques complexes. En particulier, sur KITTI-STEP, cette méthode simple peut améliorer les performances précédentes de presque 12 % en termes d'amélioration relative. Sur VIPSeg, Video K-Net réalise presque 15 % d'amélioration relative et atteint un VPQ (Video Panoptic Quality) de 39,8 %. Nous avons également validé sa généralisation en segmentation sémantique vidéo, où nous avons amélioré diverses lignes de base de 2 % sur l'ensemble de données VSPW. De plus, nous avons étendu K-Net à un cadre vidéo au niveau des clips pour la segmentation d'instances vidéo, obtenant ainsi un mAP (mean Average Precision) de 40,5 % avec le squelette ResNet50 et de 54,1 % avec Swin-base sur l'ensemble de validation YouTube-2019. Nous espérons que cette méthode simple mais efficace puisse servir de nouvelle ligne de base flexible dans la conception unifiée de la segmentation vidéo. Le code source et les modèles sont disponibles à l'adresse https://github.com/lxtGH/Video-K-Net.


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp
Video K-Net : Une base simple, puissante et unifiée pour la segmentation vidéo | Articles | HyperAI