HyperAIHyperAI
منذ 2 أشهر

MatrixVT: تحويل كاميرات متعددة إلى رؤية من الأعلى بكفاءة للإدراك ثلاثي الأبعاد

Zhou, Hongyu ; Ge, Zheng ; Li, Zeming ; Zhang, Xiangyu
MatrixVT: تحويل كاميرات متعددة إلى رؤية من الأعلى بكفاءة للإدراك ثلاثي الأبعاد
الملخص

يقترح هذا البحث طريقة فعالة لتحويل الرؤية متعددة الكاميرات إلى رؤية الطائر (BEV) للإدراك ثلاثي الأبعاد، والتي أطلق عليها اسم MatrixVT. تعاني الطرق الحالية لتحويل الرؤية إما من كفاءة تحويل ضعيفة أو من اعتمادها على عمليات خاصة بالأجهزة، مما يعيق تطبيق نماذج BEV بشكل واسع. في المقابل، تولد طريقتنا ميزات BEV بكفاءة عالية باستخدام التحويلات الإيقاعية والضرب المصفوفي (MatMul) فقط. بصفة خاصة، نقترح وصف ميزات BEV كناتج ضرب ميزات الصورة بمصفوفة نقل ميزات نادرة (FTM). ثم يتم تقديم وحدة استخراج رئيسية لضغط بُعد ميزات الصورة وتقليل ندرة FTM. بالإضافة إلى ذلك، نقترح تحليل الحلقة والشعاع (Ring & Ray Decomposition) لاستبدال FTM بمصفوفتين وإعادة صياغة خط أنابيبنا لتقليل الحسابات أكثر. بالمقارنة مع الطرق الموجودة، يتمتع MatrixVT بسرعة أكبر وأثر ذاكرة أقل بينما يظل سهل التطبيق. أثبتت التجارب الواسعة على مقاييس nuScenes أن طريقتنا فعالة للغاية ولكنها تحصل على نتائج مماثلة لأفضل الطرق الحالية (SOTA) في مهمتي الكشف عن الأجسام وتقسيم الخريطة.

MatrixVT: تحويل كاميرات متعددة إلى رؤية من الأعلى بكفاءة للإدراك ثلاثي الأبعاد | أحدث الأوراق البحثية | HyperAI