HyperAIHyperAI

Command Palette

Search for a command to run...

SparseBEV: كشف كائنات ثلاثية الأبعاد عالي الأداء من مقاطع فيديو متعددة الكاميرات باستخدام ندرة

Haisong Liu Yao Teng Tao Lu Haiguang Wang Limin Wang

الملخص

أصبح الكشف عن الأجسام ثلاثية الأبعاد المستند إلى الكاميرات في فضاء BEV (منظور الطيور) محط اهتمام كبير خلال السنوات الأخيرة. عادةً ما تتبع النماذج الكثيفة نموذجًا ثنائي المرحلة، حيث يتم أولًا بناء ميزة BEV كثيفة، ثم تنفيذ الكشف عن الأجسام في فضاء BEV، وهو ما يعاني من تحويلات منظور معقدة وتكاليف حسابية عالية. من ناحية أخرى، تتبع النماذج النادرة نموذجًا يستند إلى الاستفسارات دون بناء ميزة BEV الكثيفة صراحةً، لكنها تحقق أداءً أضعف مقارنةً بالأنماط الكثيفة. في هذه الورقة، نكتشف أن العامل الرئيسي لتقليل الفجوة في الأداء هو قدرة الكاشف على التكيف في كل من فضاء BEV وفضاء الصورة. لتحقيق هذا الهدف، نقترح SparseBEV، وهو كاشف ثلاثي الأبعاد بالكامل نادر، يتفوق في الأداء على النماذج الكثيفة. يحتوي SparseBEV على ثلاث تصميمات رئيسية، وهي: (1) الانتباه الذاتي القابل للتكيف حسب المقياس لجمع الميزات بحقل استقبال تكيفي في فضاء BEV، (2) أخذ العينات المكانية الزمنية القابلة للتكيف لإنشاء مواقع أخذ العينات تحت إشراف الاستفسارات، و(3) الخلط القابل للتكيف لفك تشفير الميزات المستخلصة باستخدام أوزان ديناميكية مستمدة من الاستفسارات. على مجموعة الاختبار من nuScenes، حقق SparseBEV أداءً متقدمًا في مجاله بـ 67.5 NDS. وعلى مجموعة التحقق، حقق 55.8 NDS مع الحفاظ على سرعة استنتاج في الوقت الفعلي تبلغ 23.5 إطارًا في الثانية. يمكن الوصول إلى الكود من خلال: https://github.com/MCG-NJU/SparseBEV.


بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي
وحدات GPU جاهزة للعمل
أفضل الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp