HyperAIHyperAI
il y a 2 mois

Segmentation Panoptique Vidéo

Dahun Kim; Sanghyun Woo; Joon-Young Lee; In So Kweon
Segmentation Panoptique Vidéo
Résumé

La segmentation panoptique est devenue une nouvelle norme dans les tâches de reconnaissance visuelle en unifiant les tâches précédentes de segmentation sémantique et de segmentation d'instances. Dans cet article, nous proposons et explorons une nouvelle extension vidéo de cette tâche, appelée segmentation panoptique vidéo. Cette tâche nécessite la génération d'une segmentation panoptique cohérente ainsi qu'une association des identifiants d'instances entre les trames vidéo. Pour stimuler la recherche sur cette nouvelle tâche, nous présentons deux types de jeux de données panoptiques vidéo. Le premier est une réorganisation du jeu de données synthétique VIPER au format panoptique vidéo afin d'exploiter ses annotations pixeliques à grande échelle. Le second est une extension temporelle du jeu de données Cityscapes val., en fournissant de nouvelles annotations panoptiques vidéo (Cityscapes-VPS). De plus, nous proposons un nouveau réseau de segmentation panoptique vidéo (VPSNet) qui prédit conjointement les classes d'objets, les boîtes englobantes, les masques, le suivi des identifiants d'instances et la segmentation sémantique dans les trames vidéo. Afin de fournir des métriques appropriées pour cette tâche, nous proposons une métrique de qualité panoptique vidéo (VPQ) et évaluons notre méthode ainsi que plusieurs autres méthodes de base. Les résultats expérimentaux démontrent l'efficacité des deux jeux de données présentés. Nous obtenons des résultats à l'état de l'art en termes de qualité panoptique d'image (PQ) sur Cityscapes, ainsi qu'en termes de VPQ sur les jeux de données Cityscapes-VPS et VIPER. Les jeux de données et le code sont rendus publiquement disponibles.

Segmentation Panoptique Vidéo | Articles de recherche récents | HyperAI