شبكة تبادل المعرفة عبر الوسائط للكشف عن الكائنات ثلاثية الأبعاد من منظور واحد

استخدام كاشفات مبنية على ليدار أو بيانات النقاط الحقيقية من ليدار لتوجيه الكشف ثلاثي الأبعاد من منظور واحد قد أدى إلى تحسن كبير، مثل منهجيات بسيو-ليدار. ومع ذلك، فإن الطرق الحالية تُطبّق عادةً استراتيجيات تدريب غير منتهية (non-end-to-end) وتستفيد بشكل غير كافٍ من المعلومات المستمدة من ليدار، حيث لم يتم استغلال الإمكانات الكبيرة المتوفرة في بيانات ليدار بشكل فعّال. في هذه الورقة، نقترح شبكة التدريس التشاركي بين الوسائط (CMKD) للكشف ثلاثي الأبعاد من منظور واحد، بهدف نقل المعرفة بشكل فعّال و مباشر من وسيلة ليدار إلى وسيلة الصورة، من حيث الميزات والاستجابات. علاوةً على ذلك، نوسع CMKD ليصبح إطارًا للتدريب شبه المُراقب من خلال استخلاص المعرفة من بيانات غير مُعلَّمة كبيرة النطاق، مما يُحسّن الأداء بشكل ملحوظ. حتى تاريخ التقديم، تُصنف CMKD في المرتبة الأولى بين كاشفات الكشف ثلاثي الأبعاد من منظور واحد، مع نشر نتائج على مجموعة بيانات KITTI test و مجموعة بيانات Waymo val، مع تحقيق مكاسب أداء كبيرة مقارنة بالطرق المُتقدمة السابقة.