X3KD: التعلم التجميعي للمعرفة عبر الوسائط، المهام، والمراحل للكشف عن الأجسام ثلاثية الأبعاد باستخدام كاميرات متعددة

أحرزت التطورات الحديثة في كشف الأجسام ثلاثية الأبعاد (3DOD) نتائج متميزة بشكل ملحوظ بالنسبة إلى النماذج القائمة على ليدار. في المقابل، تُظهر نماذج كشف الأجسام ثلاثية الأبعاد القائمة على صور الكاميرات المتعددة المحيطة (surround-view) أداءً أقل فعالية، وذلك بسبب التحويل الضروري للسمات من الرؤية المنظورية (PV) إلى تمثيل ثلاثي الأبعاد في العالم الحقيقي، وهو تحويل غامض ناتج عن نقص معلومات العمق. تقدّم هذه الورقة إطارًا شاملاً لنقل المعرفة (X3KD) عبر مختلف الوسائط، والمهام، والمرحلات في كشف الأجسام ثلاثية الأبعاد باستخدام كاميرات متعددة. بشكل خاص، نقترح نقل المعرفة بين المهام (cross-task distillation) من مُدرّس تجزئة الكائنات (X-IS) في مرحلة استخراج السمات في الرؤية المنظورية، مما يوفر إشرافًا دون انتقال أخطاء غير واضحة عبر عملية التحويل من الرؤية المنظورية. وبعد التحويل، نطبّق نقل المعرفة بين الوسائط للسمات (X-FD) والتدريب المضاد (X-AT) لتحسين تمثيل السمات ثلاثية الأبعاد في العالم الحقيقي من خلال المعلومات المحتواة في مُدرّس كشف الأجسام ثلاثية الأبعاد القائم على ليدار. وأخيرًا، نستخدم هذا المُدرّس أيضًا في نقل المعرفة بين الوسائط في الناتج (X-OD)، مما يوفر إشرافًا كثيفًا في مرحلة التنبؤ. قمنا بتحليل معمّق لنقل المعرفة في مراحل مختلفة من كشف الأجسام ثلاثية الأبعاد باستخدام كاميرات متعددة. أظهر النموذج النهائي X3KD تفوقه على الطرق المتطورة السابقة على مجموعتي بيانات nuScenes وWaymo، كما يُظهر قدرة على التعميم إلى كشف الأجسام ثلاثية الأبعاد القائمة على رادار (RADAR). يمكن مشاهدة فيديو النتائج النوعية من خلال الرابط التالي: https://youtu.be/1do9DPFmr38.