HyperAIHyperAI

Command Palette

Search for a command to run...

CAPE: تضمين موقع وجهة الكاميرا للكشف عن الكائنات ثلاثية الأبعاد متعددة المناظر

Kaixin Xiong Shi Gong Xiaoqing Ye Xiao Tan Ji Wan Errui Ding Jingdong Wang Xiang Bai

الملخص

في هذه الورقة، نتناول مشكلة كشف الأجسام ثلاثية الأبعاد من صور متعددة الزوايا. تعتمد الطرق الحالية القائمة على الاستفسارات على تضمينات الموضع ثلاثية الأبعاد العالمية (PE) لتعلم التقابل الهندسي بين الصور والفضاء ثلاثي الأبعاد. ونُقدّم حجّة بأن التفاعل المباشر بين ميزات الصورة ثنائية الأبعاد وتضمينات الموضع ثلاثية الأبعاد العالمية قد يزيد من صعوبة تعلّم تحويل الزوايا بسبب التغيرات في المعلمات الخارجية للكاميرات (camera extrinsics). لذا نقترح طريقة جديدة تعتمد على تضمين الموضع وفقًا لنظام إحداثيات منظور الكاميرا، تُسمّى CAPE. نُشكّل تضمينات الموضع ثلاثية الأبعاد ضمن نظام إحداثيات محلي مرتبط بمنظور الكاميرا بدلًا من النظام الإحداثي العالمي، بحيث تصبح تضمينات الموضع ثلاثية الأبعاد خالية من تضمين معلمات الموضع الخارجي للكاميرات. علاوةً على ذلك، نوسّع تطبيق CAPE لنموذج التسلسل الزمني من خلال استغلال استفسارات الكائنات في الإطارات السابقة وترميز الحركة الذاتية (ego-motion) لتعزيز كشف الأجسام ثلاثية الأبعاد. تحقق CAPE أفضل أداء مُحقّق حتى الآن (61.0% NDS و52.5% mAP) بين جميع الطرق الخالية من LiDAR على مجموعة بيانات nuScenes. يمكن الوصول إلى الشيفرة والنماذج من خلال: \href{https://github.com/PaddlePaddle/Paddle3D}{Paddle3D} و \href{https://github.com/kaixinbear/CAPE}{التنفيذ بـ PyTorch}.


بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي
وحدات GPU جاهزة للعمل
أفضل الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp