استغلال الخبرة متعددة الوسائط المركزية حول الرؤية للكشف عن الأجسام ثلاثية الأبعاد

تُكرس الأبحاث الحالية بشكل رئيسي جهودها لتحسين دقة كاشفات الأشياء ثلاثية الأبعاد التي تعتمد فقط على الكاميرا (الطالب) من خلال نقل المعرفة من النماذج القائمة على ليدار أو متعددة الوسائط (الخبير). ومع ذلك، فإن وجود فجوة مجالية بين سمات ليدار والكاميرات، إلى جانب التناقض المتأصل في دمج البيانات الزمنية، يعيق بشكل كبير فعالية تحسينات التحويل القائمة على التعلم النقل (distillation) للطلاب. مستوحى من نجاح التحويل أحادي الوسائط، فإن نموذج خبير صديق للطالب ينبغي أن يعتمد بشكل رئيسي على سمات الكاميرا، مع الحفاظ على أداء مماثل للنماذج متعددة الوسائط. ولتحقيق هذا الهدف، نقدّم VCD، وهي إطار عمل لتحسين نموذج الطالب الذي يعتمد فقط على الكاميرا، يتضمن خبيرًا متعدد الوسائط صديقًا للطالب، ورقابة تعلم نقل صديقة للدمج الزمني. يعتمد الخبير المتعدد الوسائط VCD-E على هيكل متماثل مع نموذج الطالب الذي يعتمد فقط على الكاميرا، بهدف تقليل الفرق في السمات، ويستفيد من مدخل ليدار كمعلومة أولية للعمق لإعادة بناء المشهد ثلاثي الأبعاد، مما يحقق أداءً مماثلاً للنماذج المتعددة الوسائط الأخرى غير المتجانسة. علاوةً على ذلك، نُقدّم وحدة تعلم نقل مفصلة تعتمد على المسارات (trajectory-based) لتصحيح انحراف الحركة لكل كائن في المشهد بشكل منفصل. وبفضل هذه التحسينات، يُحقّق نموذج الطالب الذي يعتمد فقط على الكاميرا VCD-A أداءً جديدًا في مستوى الحالة الحالية (state-of-the-art) على مجموعة بيانات nuScenes، بدرجة تبلغ 63.1% NDS.