HyperAIHyperAI
منذ 11 أيام

CAPE: تضمين موقع وجهة الكاميرا للكشف عن الكائنات ثلاثية الأبعاد متعددة المناظر

Kaixin Xiong, Shi Gong, Xiaoqing Ye, Xiao Tan, Ji Wan, Errui Ding, Jingdong Wang, Xiang Bai
CAPE: تضمين موقع وجهة الكاميرا للكشف عن الكائنات ثلاثية الأبعاد متعددة المناظر
الملخص

في هذه الورقة، نتناول مشكلة كشف الأجسام ثلاثية الأبعاد من صور متعددة الزوايا. تعتمد الطرق الحالية القائمة على الاستفسارات على تضمينات الموضع ثلاثية الأبعاد العالمية (PE) لتعلم التقابل الهندسي بين الصور والفضاء ثلاثي الأبعاد. ونُقدّم حجّة بأن التفاعل المباشر بين ميزات الصورة ثنائية الأبعاد وتضمينات الموضع ثلاثية الأبعاد العالمية قد يزيد من صعوبة تعلّم تحويل الزوايا بسبب التغيرات في المعلمات الخارجية للكاميرات (camera extrinsics). لذا نقترح طريقة جديدة تعتمد على تضمين الموضع وفقًا لنظام إحداثيات منظور الكاميرا، تُسمّى CAPE. نُشكّل تضمينات الموضع ثلاثية الأبعاد ضمن نظام إحداثيات محلي مرتبط بمنظور الكاميرا بدلًا من النظام الإحداثي العالمي، بحيث تصبح تضمينات الموضع ثلاثية الأبعاد خالية من تضمين معلمات الموضع الخارجي للكاميرات. علاوةً على ذلك، نوسّع تطبيق CAPE لنموذج التسلسل الزمني من خلال استغلال استفسارات الكائنات في الإطارات السابقة وترميز الحركة الذاتية (ego-motion) لتعزيز كشف الأجسام ثلاثية الأبعاد. تحقق CAPE أفضل أداء مُحقّق حتى الآن (61.0% NDS و52.5% mAP) بين جميع الطرق الخالية من LiDAR على مجموعة بيانات nuScenes. يمكن الوصول إلى الشيفرة والنماذج من خلال: \href{https://github.com/PaddlePaddle/Paddle3D}{Paddle3D} و \href{https://github.com/kaixinbear/CAPE}{التنفيذ بـ PyTorch}.

CAPE: تضمين موقع وجهة الكاميرا للكشف عن الكائنات ثلاثية الأبعاد متعددة المناظر | أحدث الأوراق البحثية | HyperAI