HyperAIHyperAI

Command Palette

Search for a command to run...

النظرة الثلاثية للتنبؤ بالاحتلال الصرفي ثلاثي الأبعاد المستند إلى الرؤية

Yuanhui Huang Wenzhao Zheng Yunpeng Zhang Jie Zhou Jiwen Lu

الملخص

تستخدم الطرق الحديثة للاستشعار في القيادة الذاتية المركزة على الرؤية بشكل واسع تمثيل المنظور العلوي للطير (BEV) لوصف المشهد ثلاثي الأبعاد. رغم كفاءته الأفضل مقارنة بتمثيل الفوكسل، فإنه يواجه صعوبة في وصف البنية ثلاثية الأبعاد الدقيقة للمشهد باستخدام مستوى واحد فقط. لحل هذه المشكلة، نقترح تمثيل المنظور الثلاثي (TPV) الذي يرافق المنظور العلوي للطير بمستوىين عموديين إضافيين. نقوم بتوصيف كل نقطة في الفضاء ثلاثي الأبعاد من خلال جمع خصائصها المحjetaة على المستويات الثلاثة. للرفع من خصائص الصورة إلى الفضاء ثلاثي الأبعاد TPV، نقترح أيضًا مرمّز TPV مستند إلى الترانسفورمر (TPVFormer) للحصول على خصائص TPV بكفاءة عالية. نستخدم آلية الانتباه لتجميع خصائص الصورة المرتبطة بكل استفسار في كل مستوى من مستويات TPV. تظهر التجارب أن نموذجنا المدرب باستخدام الإشراف النادر يقوم بتوقع الاشغال الدلالية لكل الفوكسل بكفاءة. ولأول مرة، نثبت أنه يمكن استخدام المدخلات الكاميرية فقط لتحقيق أداء مماثل لطرق الاستشعار بالليدار في مهمة تقسيم الليدار على مجموعة بيانات nuScenes. الرمز: https://github.com/wzzheng/TPVFormer.请注意,"الفوكسل" 是 "voxel" 的阿拉伯语翻译,用于表示三维空间中的像素单元。此外,"TPVFormer" 作为一个专有名词,在阿拉伯语中保留了其英文形式。


بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي
وحدات GPU جاهزة للعمل
أفضل الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp
النظرة الثلاثية للتنبؤ بالاحتلال الصرفي ثلاثي الأبعاد المستند إلى الرؤية | مستندات | HyperAI