مُحَوِّل البكسل للكشف عن الأجسام ثلاثية الأبعاد

نقدّم VoTr (Transformer البكسل)، وهو بنية أساسية جديدة وفعّالة تعتمد على البكسل للكشف عن الكائنات ثلاثية الأبعاد من سحابات النقاط. لا يمكن للبنى الأساسية التقليدية القائمة على التحويل الثلاثي الأبعاد (3D convolutional backbones) في الكاشفات الثلاثية الأبعاد التي تعتمد على البكسل التقاط معلومات السياق الواسعة بكفاءة، وذلك بسبب الحدود المحدودة لحقول الاستقبال (receptive fields)، وهي معلومات حاسمة للتعرف على الكائنات وتحديد موقعها. في هذه الورقة، نحل هذه المشكلة من خلال تقديم بنية تعتمد على معمارية Transformer تسمح بربط العلاقات الطويلة المدى بين البكسلات من خلال الانتباه الذاتي (self-attention). مع العلم أن البكسلات غير الفارغة طبيعياً نادرة ولكنها عديدة، فإن تطبيق معمارية Transformer القياسية مباشرة على البكسلات ليس أمراً سهلاً. ولحل هذه المشكلة، نقترح وحدة البكسل النادرة (sparse voxel module) ووحدة البكسل الفرعية (submanifold voxel module)، اللتان يمكنهما العمل بكفاءة على المواقع الفارغة وغير الفارغة للبكسلات. ولتوسيع نطاق الانتباه بشكل أكبر مع الحفاظ على تكلفة حسابية مماثلة للبنى القائمة على التحويل، نقترح آليتين للانتباه في الانتباه متعدد الرؤوس ضمن هاتين الوحدتين: الانتباه المحلي (Local Attention) والانتباه المُتَوَسّع (Dilated Attention)، كما نقترح كذلك آلية "استعلام البكسل السريع" (Fast Voxel Query) لتسريع عملية الاستعلام في الانتباه متعدد الرؤوس. يتكوّن VoTr من سلسلة من الوحدات النادرة والفرعية للبكسلات، ويمكن تطبيقه في معظم الكاشفات القائمة على البكسلات. تُظهر النتائج التي توصلنا إليها تحسّناً متسقًا مقارنة بالأساليب القائمة على التحويل، مع الحفاظ على الكفاءة الحسابية على بيانات KITTI وبيانات Waymo Open.