HyperAIHyperAI
il y a 2 mois

PolyphonicFormer : Apprentissage unifié des requêtes pour la segmentation panoptique vidéo avec prise en compte de la profondeur

Haobo Yuan; Xiangtai Li; Yibo Yang; Guangliang Cheng; Jing Zhang; Yunhai Tong; Lefei Zhang; Dacheng Tao
PolyphonicFormer : Apprentissage unifié des requêtes pour la segmentation panoptique vidéo avec prise en compte de la profondeur
Résumé

La segmentation panoramique vidéo avec prise en compte de la profondeur (Depth-aware Video Panoptic Segmentation, DVPS) est un nouveau problème visuel complexe qui vise à prédire simultanément la segmentation panoramique et la profondeur dans une vidéo. Les travaux précédents résolvent cette tâche en étendant les méthodes existantes de segmentation panoramique avec une tête supplémentaire pour la prédiction de profondeur dense et le suivi d'instances. Cependant, la relation entre la profondeur et la segmentation panoramique n'est pas bien explorée -- combiner simplement des méthodes existantes entraîne des conflits et nécessite un équilibrage soigneux des poids. Dans cet article, nous présentons PolyphonicFormer, un transformateur visuel conçu pour unifier ces sous-tâches au sein de la tâche DVPS, conduisant ainsi à des résultats plus robustes. Notre principale intuition est que la profondeur peut être harmonisée avec la segmentation panoramique grâce à notre nouveau paradigme de prédiction de cartes de profondeur au niveau des instances à l'aide de requêtes d'objets. Ensuite, nous explorons la relation entre les deux tâches par l'apprentissage basé sur les requêtes. Nos expériences démontrent les avantages de notre conception tant du point de vue de l'estimation de la profondeur que de celui de la segmentation panoramique. Comme chaque requête "thing" encode également des informations spécifiques aux instances, il est naturel d'effectuer le suivi directement par apprentissage d'apparence. Notre méthode obtient des résultats d'état de l'art sur deux jeux de données DVPS (Semantic KITTI, Cityscapes) et se classe première sur le parcours vidéo + profondeur du défi ICCV-2021 BMTT. Le code est disponible à l'adresse suivante : https://github.com/HarborYuan/PolyphonicFormer .

PolyphonicFormer : Apprentissage unifié des requêtes pour la segmentation panoptique vidéo avec prise en compte de la profondeur | Articles de recherche récents | HyperAI