HyperAIHyperAI

Command Palette

Search for a command to run...

MatrixVT: تحويل كاميرات متعددة إلى رؤية من الأعلى بكفاءة للإدراك ثلاثي الأبعاد

Hongyu Zhou Zheng Ge Zeming Li Xiangyu Zhang

الملخص

يقترح هذا البحث طريقة فعالة لتحويل الرؤية متعددة الكاميرات إلى رؤية الطائر (BEV) للإدراك ثلاثي الأبعاد، والتي أطلق عليها اسم MatrixVT. تعاني الطرق الحالية لتحويل الرؤية إما من كفاءة تحويل ضعيفة أو من اعتمادها على عمليات خاصة بالأجهزة، مما يعيق تطبيق نماذج BEV بشكل واسع. في المقابل، تولد طريقتنا ميزات BEV بكفاءة عالية باستخدام التحويلات الإيقاعية والضرب المصفوفي (MatMul) فقط. بصفة خاصة، نقترح وصف ميزات BEV كناتج ضرب ميزات الصورة بمصفوفة نقل ميزات نادرة (FTM). ثم يتم تقديم وحدة استخراج رئيسية لضغط بُعد ميزات الصورة وتقليل ندرة FTM. بالإضافة إلى ذلك، نقترح تحليل الحلقة والشعاع (Ring & Ray Decomposition) لاستبدال FTM بمصفوفتين وإعادة صياغة خط أنابيبنا لتقليل الحسابات أكثر. بالمقارنة مع الطرق الموجودة، يتمتع MatrixVT بسرعة أكبر وأثر ذاكرة أقل بينما يظل سهل التطبيق. أثبتت التجارب الواسعة على مقاييس nuScenes أن طريقتنا فعالة للغاية ولكنها تحصل على نتائج مماثلة لأفضل الطرق الحالية (SOTA) في مهمتي الكشف عن الأجسام وتقسيم الخريطة.


بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي
وحدات GPU جاهزة للعمل
أفضل الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp