HyperAIHyperAI
il y a 2 mois

Apprendre à Associer Tous les Segments pour la Segmentation Panoptique Vidéo

Sanghyun Woo; Dahun Kim; Joon-Young Lee; In So Kweon
Apprendre à Associer Tous les Segments pour la Segmentation Panoptique Vidéo
Résumé

La correspondance temporelle — liant des pixels ou des objets entre les différentes images d'une séquence vidéo — constitue un signal de supervision fondamental pour les modèles vidéo. Pour une compréhension panoptique des scènes dynamiques, nous étendons cette notion à chaque segment. Plus précisément, notre objectif est d'apprendre simultanément une correspondance grossière au niveau des segments et une correspondance fine au niveau des pixels. Nous mettons en œuvre cette idée en concevant deux nouveaux objectifs d'apprentissage. Pour valider nos propositions, nous utilisons un modèle siamois profond et formons ce modèle à apprendre la correspondance temporelle sur deux niveaux différents (c'est-à-dire, segment et pixel) en parallèle avec la tâche cible. Lors de l'inférence, le modèle traite chaque image indépendamment sans nécessiter de calculs supplémentaires ni de post-traitement. Nous démontrons que notre modèle d'inférence par image peut atteindre de nouveaux résultats d'état de l'art sur les jeux de données Cityscapes-VPS et VIPER. De plus, grâce à son efficacité élevée, le modèle s'exécute en un temps fractionnaire (3 fois plus rapide) par rapport à l'approche précédente d'état de l'art.

Apprendre à Associer Tous les Segments pour la Segmentation Panoptique Vidéo | Articles de recherche récents | HyperAI