يساعد تعلُّم السياقات الأحادية المُساعدة في الكشف ثلاثي الأبعاد عن الكائنات الأحادية

يهدف الكشف عن الكائنات ثلاثية الأبعاد من خلال عدسة واحدة إلى تحديد صناديق الحدود ثلاثية الأبعاد في صورة ثنائية الأبعاد واحدة مدخلة. ويعتبر هذا التحدي مشكلة صعبة جدًا، وظل مفتوحًا، خصوصًا عندما لا يمكن الاستفادة من أي معلومات إضافية (مثل العمق، أو بيانات الليدار، أو الإطارات المتعددة) أثناء التدريب أو الاستدلال. تقدم هذه الورقة صيغة بسيطة ولكن فعالة للكشف عن الكائنات ثلاثية الأبعاد من خلال عدسة واحدة دون الاعتماد على أي معلومات إضافية. وتُقدِّم الورقة منهجية تُسمى MonoCon، التي تتعلم السياقات ثنائية الأبعاد من خلال عدسة واحدة كمهمات مساعدة أثناء التدريب، لمساعدة الكشف عن الكائنات ثلاثية الأبعاد من خلال عدسة واحدة. الفكرة الأساسية تكمن في أن وجود صناديق الحدود ثلاثية الأبعاد المُعلَّمة للكائنات في صورة ما يوفر مجموعة غنية من إشارات المراقبة المُشَكَّلة جيدًا في الصورة الثنائية الأبعاد، مثل نقاط الزوايا المُشَكَّلة ثنائيًا، ومركبات الانزياح المرتبطة بها بالنسبة لمركز الصندوق الثنائي الأبعاد، والتي ينبغي استغلالها كمهمات مساعدة أثناء التدريب. يُلهم المنهج المُقترح بدرجة عالية من النظرية الرياضية المعروفة بـ "نظرية كرامر-ولد" (Cramer-Wold theorem) في نظرية القياس. وفي التنفيذ، يستخدم نموذجًا بسيطًا جدًا مبنيًا على التصميم من الطرف إلى الطرف (end-to-end) لتبرير فعالية تعلُّم السياقات الثنائية الأبعاد من خلال عدسة واحدة، والذي يتكون من ثلاثة مكونات رئيسية: هيكل أساسي مبني على شبكة عصبية عميقة (DNN)، وعدد من فروع التنبؤ الانحداري (regression head branches) لتعلم المعاملات الأساسية المستخدمة في توقع صناديق الحدود ثلاثية الأبعاد، وعدد من فروع التنبؤ الانحداري الأخرى لتعلم السياقات المساعدة. وبعد الانتهاء من التدريب، يتم التخلص من فروع التنبؤ بالسياقات المساعدة لتحسين كفاءة الاستدلال. وفي التجارب، تم اختبار المنهجية المُقترحة MonoCon على معيار KITTI (للفئة الخاصة بالسيارات، والمشاة، والدراجين). وقد تفوقت على جميع الطرق السابقة في قائمة التصنيف بالنسبة لفئة السيارات، وحققت أداءً مُComparable من حيث الدقة في فئتي المشاة والدراجين. وبفضل التصميم البسيط، حقق المنهج المقترح أسرع سرعة استدلال مقارنةً بالطرق الأخرى، حيث بلغت 38.7 إطارًا في الثانية (fps).