HyperAIHyperAI
منذ 11 أيام

DSVT: محول البكسل الكثيف الديناميكي مع المجموعات المائلة

Haiyang Wang, Chen Shi, Shaoshuai Shi, Meng Lei, Sen Wang, Di He, Bernt Schiele, Liwei Wang
DSVT: محول البكسل الكثيف الديناميكي مع المجموعات المائلة
الملخص

تصميم هيكل عظمي ثلاثي الأبعاد فعّال وسهل النشر لمعالجة السحابات النقطية النادرة يُعدّ مشكلة أساسية في الإدراك ثلاثي الأبعاد. مقارنةً بالتفعيل المخصص للاندماج النادر، فإن آلية الانتباه في النماذج التحويلية (Transformers) أكثر ملاءمة لتمثيل العلاقات طويلة المدى بمرنة، كما أنها أسهل في النشر ضمن التطبيقات الواقعية. ومع ذلك، نظرًا للخصائص النادرة للسحابات النقطية، فإن تطبيق نموذج تحويلي قياسي على النقاط النادرة ليس أمرًا سهلًا. في هذه الورقة، نقدّم نموذج Dynamic Sparse Voxel Transformer (DSVT)، وهو هيكل عظمي مبني على نافذة ذات خطوة واحدة للتحويل الثلاثي الأبعاد، مصمم لتطبيقات الإدراك الخارجي ثلاثي الأبعاد. ولتمكين معالجة فعّالة للنقاط النادرة بالتوازي، نقترح آلية انتباه نافذة نادرة ديناميكية، التي تقوم بتقسيم سلسلة من المناطق المحلية داخل كل نافذة وفقًا لدرجة ندرة النقاط، ثم تحسب ميزات جميع المناطق بطريقة كاملة التوازي. ولتمكين الاتصال بين المجموعات المختلفة، نصمم استراتيجية تقسيم مجموعات مُدوّرة، تتناوب بين حالتين مختلفتين من التقسيم في طبقات الانتباه الذاتي المتتالية. ولدعم التخفيض الفعّال والتمثيل الأفضل للمعلومات الهندسية، نقترح أيضًا وحدة تجميع ثلاثية الأبعاد بأسلوب الانتباه على النقاط النادرة، وهي قوية وسهلة النشر دون الحاجة إلى أي عمليات CUDA مخصصة. يحقق نموذجنا أداءً من الدرجة الأولى في مجموعة واسعة من مهام الإدراك ثلاثي الأبعاد. والأهم من ذلك، يمكن نشر DSVT بسهولة باستخدام TensorRT مع سرعة استنتاج حقيقية (27 هرتز). سيتم إتاحة الكود على الرابط: \url{https://github.com/Haiyang-W/DSVT}.

DSVT: محول البكسل الكثيف الديناميكي مع المجموعات المائلة | أحدث الأوراق البحثية | HyperAI