PolarFormer: الكشف عن الكائنات ثلاثية الأبعاد باستخدام كاميرات متعددة مع محول قطبي

تهدف الكشف عن الأجسام ثلاثية الأبعاد في القيادة الذاتية إلى استنتاج "ما" و"أين" توجد الأجسام ذات الاهتمام في العالم ثلاثي الأبعاد. ووفقًا للنهج التقليدي في الكشف عن الأجسام ثنائية الأبعاد، غالبًا ما تستخدم الطرق الحالية النظام الإحداثي الديكارتي القياسي مع محاور متعامدة. ومع ذلك، نشير إلى أن هذا النهج لا يتماشى مع طبيعة منظور السيارة ذاتها، حيث ترى كل كاميرا مثبتة على السيارة العالم على شكل مخروط (وedge) متأصل في هندسة التصوير، مع محاور غير متعامدة (متعامدة بشكل غير خطي). لذا، في هذا البحث، ندعو إلى استغلال النظام الإحداثي القطبي، ونُقدّم نموذجًا جديدًا يُسمى "PolarFormer" لتحسين دقة الكشف عن الأجسام ثلاثية الأبعاد في الرؤية من الأعلى (BEV)، باستخدام فقط صور ثنائية الأبعاد من كاميرات متعددة. وبشكل خاص، نصمم رأس كشف قائم على الانتباه المتبادل (cross-attention) دون قيود على شكل هيكل الإدخال، لمعالجة الشبكات القطبية غير المنتظمة. ولمعالجة التغيرات غير المقيدة في حجم الأجسام على طول بعد المسافة في النظام القطبي، نُدخل استراتيجية جديدة لتعلم تمثيل متعدد المقياسات في النظام القطبي. نتيجة لذلك، يمكن لنموذجنا الاستفادة القصوى من التمثيل القطبي، الذي يتم رسترته من خلال الانتباه إلى الملاحظات الصورية المقابلة بطريقة تسلسلية-إلى-تسلسل، مع الالتزام بالقيود الهندسية. وأظهرت التجارب الشاملة على مجموعة بيانات nuScenes أن نموذج PolarFormer يتفوق بشكل كبير على الطرق الحديثة المتطورة في الكشف عن الأجسام ثلاثية الأبعاد.