HyperAIHyperAI
il y a 11 jours

Le langage comme requêtes pour la segmentation d'objets vidéo par référence

Jiannan Wu, Yi Jiang, Peize Sun, Zehuan Yuan, Ping Luo
Le langage comme requêtes pour la segmentation d'objets vidéo par référence
Résumé

La segmentation d'objets vidéo par référence (R-VOS) est une tâche émergente à travers les modalités, visant à segmenter l'objet cible mentionné par une expression linguistique dans toutes les trames vidéo. Dans ce travail, nous proposons un cadre simple et unifié basé sur le Transformer, appelé ReferFormer. Ce modèle traite l'expression linguistique comme des requêtes et s'attache directement aux régions les plus pertinentes dans les trames vidéo. Plus précisément, nous introduisons un petit ensemble de requêtes d'objets conditionnées sur le langage comme entrée du Transformer. Ainsi, toutes les requêtes sont contraintes à localiser uniquement l'objet référencé. Ces requêtes sont finalement transformées en noyaux dynamiques qui captent les informations cruciales au niveau de l'objet, agissant comme des filtres de convolution pour générer les masques de segmentation à partir des cartes de caractéristiques. Le suivi d'objets est naturellement obtenu en reliant les requêtes correspondantes à travers les trames. Ce mécanisme simplifie considérablement le pipeline, et le cadre end-to-end s'écarte nettement des méthodes précédentes. Des expériences étendues sur les jeux de données Ref-Youtube-VOS, Ref-DAVIS17, A2D-Sentences et JHMDB-Sentences démontrent l'efficacité de ReferFormer. Sur Ref-Youtube-VOS, ReferFormer atteint un score de 55,6 J&F avec un squelette ResNet-50, sans ajustements supplémentaires, dépassant ainsi le meilleur résultat antérieur de 8,4 points. En outre, avec un squelette Swin-Large puissant, ReferFormer obtient le meilleur score J&F de 64,2 parmi toutes les méthodes existantes. En outre, nous montrons des résultats remarquables de 55,0 mAP et 43,7 mAP sur A2D-Sentences et JHMDB-Sentences respectivement, dépassant largement les méthodes précédentes. Le code est disponible publiquement à l'adresse suivante : https://github.com/wjn922/ReferFormer.