إلى تحسين التعميم: التعلم المشترك للعمق والوضع دون استخدام PoseNet

في هذه الدراسة، نعالج المشكلة الأساسية المتعلقة بعدم اتساق المقياس في التعلم الذاتي المشترك للعمق والوضعية. تعتمد معظم الطرق الحالية على افتراض أن مقياسًا متسقًا للعمق والوضعية يمكن استخلاصه عبر جميع العينات المدخلة، مما يُعقد مشكلة التعلُّم ويؤدي إلى تراجع الأداء وقيود في القدرة على التعميم في البيئات الداخلية وتطبيقات الـ visual odometry الطويلة التسلسل. ولحل هذه المشكلة، نقترح نظامًا جديدًا يُفرّق صراحةً بين المقياس والتقدير الناتج من الشبكة. بدلًا من الاعتماد على هيكل PoseNet، يستخدم منهجنا استخلاص الوضعية النسبية عن طريق حل مصفوفة الأساس مباشرةً من تطابق التدفق البصري الكثيف، ويُوظّف وحدة مثلثية لحالة من نقطتين لاستعادة بنية ثلاثية الأبعاد حتى المقياس. ثم، نُنسق مقياس تنبؤ العمق مع السحابة النقطية الناتجة عن المثلثات، ونستخدم الخريطة المُحوَّلة للعمق في حساب خطأ العمق والتحقق المكثف من إعادة الإسقاط. يمكن تدريب النظام بأكمله بشكل مشترك ونهاية إلى نهاية. تُظهر التجارب الواسعة أن نظامنا لا يحقق أداءً من الدرجة الأولى على بيانات KITTI لتقدير العمق والتدفق البصري، بل يُحسّن بشكل كبير من قدرة التعميم للطرق الحالية للتعلم الذاتي للعمق والوضعية في مجموعة متنوعة من السيناريوهات الصعبة، ويحقق نتائج من الدرجة الأولى بين الطرق القائمة على التعلم الذاتي على بيانات KITTI Odometry وNYUv2. علاوةً على ذلك، نقدّم بعض الملاحظات المثيرة للاهتمام حول حدود الطرق القائمة على PoseNet في تقدير الوضعية النسبية من حيث القدرة على التعميم. يمكن الوصول إلى الكود عبر الرابط: https://github.com/B1ueber2y/TrianFlow.