IAFA: تجميع الميزة العَلَمية للمُعطى للكشف عن الأجسام ثلاثية الأبعاد من صورة واحدة

الكشف عن الأجسام ثلاثية الأبعاد من صورة واحدة هو مهمة مهمة في القيادة الذاتية (AD)، حيث تم اقتراح العديد من النهج لتحقيقها. ومع ذلك، فإن هذه المهمة تُعد ذات طبيعة غامضة وصعبة بشكل جوهري، نظرًا لأن تقدير العمق من صورة واحدة يُعد مشكلة غير محددة جيدًا بالفعل. في هذا البحث، نقترح نهجًا يراعي الهوية الفردية لجمع المعلومات المفيدة لتحسين دقة الكشف عن الأجسام ثلاثية الأبعاد، مع إسهامات رئيسية تتمثل في ما يلي: أولاً، تم اقتراح وحدة تجميع الميزات المتميزة بالهوية الفردية (IAFA) لجمع الميزات المحلية والعالمية لاستخدامها في استرجاع صناديق الحدود ثلاثية الأبعاد. ثانيًا، وجدنا تجريبيًا أن وحدة الانتباه المكاني يمكن تعلّمها بشكل جيد عند استخدام التسميات الأولية للهوية الفردية كإشارة توجيهية. وقد ساهمت هذه الوحدة بشكل كبير في تحسين أداء الطريقة الأساسية في كل من الكشف ثلاثي الأبعاد والكشف في رؤية الطيور (2D Bird's Eye View) ضمن جميع الفئات الثلاث. ثالثًا، تفوقت طريقة المقترحة على جميع النهج القائمة على صورة واحدة (حتى تلك التي تم تدريبها باستخدام العمق كمدخل مساعد)، وحققت أفضل أداء في الكشف ثلاثي الأبعاد على معيار KITTI.