التعلم الهندسي الموجه للعمق من خلال النمذجة الإسقاطية للكشف ثلاثي الأبعاد بالمنظر الواحد

كمهمة حاسمة في القيادة الذاتية، حقق اكتشاف الأجسام ثلاثية الأبعاد تقدماً كبيراً في السنوات الأخيرة. ومع ذلك، يظل اكتشاف الأجسام ثلاثية الأبعاد من منظور مونوكولار (صورة واحدة) مشكلة صعبة نظراً لأداء غير مرضٍ في تقدير العمق. تُعدّ معظم الطرق الحالية المبنية على الصور المونوكولارية تُقدّر العمق مباشرةً دون أخذ في الاعتبار العلاقات المهمة بين العمق والعناصر الهندسية المختلفة (مثل أحجام صناديق الحدود، والأبعاد ثلاثية الأبعاد للأجسام، ووضعية الأجسام). في هذه الورقة، نقترح تعلّم تقدير العمق الموجه بالهندسة باستخدام نمذجة التماثل لتعزيز اكتشاف الأجسام ثلاثية الأبعاد من منظور مونوكولار. بشكل خاص، تم تطوير صيغة هندسية منهجية تدمج نمذجة التماثل لتنبؤات العمق ثنائية وثلاثية الأبعاد داخل شبكة اكتشاف الأجسام ثلاثية الأبعاد المبنية على الصور المونوكولارية. كما قمنا بتنفيذ الصيغة المقترحة ودمجها لتمكين تعلّم تمثيلات عميقة واعية بالهندسة، مما يسمح بتفاعلات فعّالة بين الأبعاد الثنائية والثلاثية لتحسين تقدير العمق. علاوة على ذلك، قمنا بتقديم أساس قوي من خلال معالجة التداخل الكبير بين التسميات ثنائية الأبعاد والصناديق المُشَرَّطة، لضمان تعلّم قوي باستخدام الصيغة الهندسية المقترحة. أظهرت التجارب على مجموعة بيانات KITTI أن طريقةنا تُحسّن بشكل ملحوظ أداء الطريقة المتطورة الحالية المبنية على الصور المونوكولارية دون الحاجة إلى بيانات إضافية بنسبة 2.80% في إعداد الاختبار المتوسط. سيتم إتاحة النموذج والكود على الرابط: https://github.com/YinminZhang/MonoGeo.