HyperAIHyperAI
il y a 2 mois

ViP-DeepLab : Apprentissage de la perception visuelle avec segmentation panoramique vidéo prenant en compte la profondeur

Siyuan Qiao; Yukun Zhu; Hartwig Adam; Alan Yuille; Liang-Chieh Chen
ViP-DeepLab : Apprentissage de la perception visuelle avec segmentation panoramique vidéo prenant en compte la profondeur
Résumé

Dans cet article, nous présentons ViP-DeepLab, un modèle unifié visant à résoudre le problème d'projection inverse en vision, qui est ancien et complexe. Nous modélisons ce problème comme la restauration de nuages de points à partir de séquences d'images perspectivées tout en fournissant une interprétation sémantique au niveau des instances pour chaque point. La résolution de ce problème nécessite que les modèles de vision prédise la position spatiale, la classe sémantique et l'étiquette d'instance temporellement cohérente pour chaque point 3D. ViP-DeepLab aborde cette tâche en effectuant simultanément l'estimation de profondeur monoculaire et la segmentation panoramique vidéo. Nous nommons cette tâche conjointe la Segmentation Panoramique Vidéo Consciente de la Profondeur (Depth-aware Video Panoptic Segmentation), et proposons une nouvelle métrique d'évaluation ainsi que deux jeux de données dérivés pour elle, qui seront rendus disponibles au public. Pour les sous-tâches individuelles, ViP-DeepLab obtient également des résultats de pointe, surpassant les méthodes précédentes avec un gain de 5,1% VPQ sur Cityscapes-VPS, se classant première sur le benchmark d'estimation de profondeur monoculaire KITTI et première sur KITTI MOTS piéton. Les jeux de données et les codes d'évaluation sont mis à disposition du public.

ViP-DeepLab : Apprentissage de la perception visuelle avec segmentation panoramique vidéo prenant en compte la profondeur | Articles de recherche récents | HyperAI