HyperAIHyperAI
منذ 2 أشهر

ViP-DeepLab: تعلم الإدراك البصري مع تقسيم الفيديو الشامل المدرك للعمق

Siyuan Qiao; Yukun Zhu; Hartwig Adam; Alan Yuille; Liang-Chieh Chen
ViP-DeepLab: تعلم الإدراك البصري مع تقسيم الفيديو الشامل المدرك للعمق
الملخص

في هذا البحث، نقدم نموذج ViP-DeepLab الموحد، الذي يحاول حل مشكلة الإسقاط العكسي القديمة والمعقدة في مجال الرؤية البصرية، والتي نقوم بنمذجتها على أنها استعادة السحب النقطية من سلاسل الصور المنظورية مع توفير تفسيرات دلالية على مستوى المثال لكل نقطة. يتطلب حل هذه المشكلة من نماذج الرؤية التنبؤ بموقع الفضاء، وصنف الدلالة، والعلامة الزمنية المتسقة لـ كل نقطة ثلاثية الأبعاد. يتناول ViP-DeepLab هذه المشكلة من خلال أداء تقدير العمق الأحادي البؤرة والتقسيم البانورامي للفيديو بشكل متزامن. نسمي هذه المهمة المشتركة بالتقسيم البانورامي للفيديو مع الوعي بالعمق، ونقترح مقياس تقييم جديد بالإضافة إلى قاعدتي بيانات مشتقتين لها، سيتم جعلها متاحة للجمهور. في المهام الفرعية الفردية، يحقق ViP-DeepLab أيضًا أفضل النتائج الحالية، حيث يتفوق على الأساليب السابقة بنسبة 5.1% VPQ (Video Panoptic Quality) في Cityscapes-VPS (Cityscapes Video Panoptic Segmentation)، ويحتل المركز الأول في معيار تقدير العمق الأحادي البؤرة لـ KITTI (Karlsruhe Institute of Technology and Toyota Technological Institute)، والمركز الأول في تصنيف KITTI MOTS للمشاة. تم جعل قواعد البيانات وأكواد التقييم متاحة للعامة.

ViP-DeepLab: تعلم الإدراك البصري مع تقسيم الفيديو الشامل المدرك للعمق | أحدث الأوراق البحثية | HyperAI