استكشاف التمثيل الوسيط لتقدير وضع المركبة من كاميرا واحدة

نقدم إطارًا جديدًا قائمًا على التعلم لاستعادة وضع المركبة في SO(3) من صورة RGB واحدة. بخلاف الأعمال السابقة التي تربط بين المظهر المحلي وزوايا الملاحظة، نستكشف نهجًا تدريجيًا من خلال استخراج تمثيلات هندسية متوسطة (IGRs) ذات معنى لتقدير اتجاه المركبة الذاتي. يتميز هذا النهج بنموذج عميق يقوم بتحويل الشدود المعترَف بها إلى تمثيلات هندسية متوسطة، والتي يتم ربطها بتمثيل ثلاثي الأبعاد يشفر اتجاه الكائن في نظام إحداثيات الكاميرا. المشاكل الأساسية هي ما هي التمثيلات الهندسية المتوسطة التي يجب استخدامها وكيف يمكن تعلمها بشكل أكثر فعالية. نجيب على السؤال الأول من خلال تصميم التمثيلات الهندسية المتوسطة بناءً على متوازي مستطيلات مُدْرَج (interpolated cuboid) ينتج بسهولة من التسميات الأولية ثلاثية الأبعاد. أما السؤال الثاني فيحثنا على دمج المعرفة الهندسية مع دالة خسارة جديدة تعتمد على ثابت الإسقاط (projective invariant). تتيح هذه دالة الخسارة استخدام البيانات غير المصنفة في مرحلة التدريب لتحسين تعلم التمثيل. بدون تسميات إضافية، يتفوق نظامنا على الطرق السابقة القائمة على الصور الفردية RGB في كشف وتقدير وضع المركبات المشترك على مقاييس KITTI، حيث يصل أداؤه حتى إلى مستوى طرق الاستريو. الرمز والموديلات المسبقة التدريب متاحة عبر هذا الرابط: https://thishttpsURL.com