تنبؤ العمق بدون المستشعرات: استغلال البنيان للتعلم غير المشرف من مقاطع الفيديو الأحادية العدسة

تعلم التنبؤ بعمق المشهد من مدخلات RGB هو مهمة صعبة لكل من الملاحة الروبوتية الداخلية والخارجية. في هذا العمل، نتناول تعلم غير المشرف لعمق المشهد وحركة الذات للروبوت، حيث يتم توفير الإشراف بواسطة مقاطع الفيديو الأحادية العدسة، نظرًا لأن الكاميرات هي أرخص وأقل تقييدًا وأكثر انتشارًا كمستشعرات في مجال الروبوتات.العمل السابق في تعلم الصور إلى عمق بدون إشراف قد أرسى أسسًا قوية في المجال. نقترح نهجًا جديدًا ينتج نتائج ذات جودة أعلى، قادر على نمذجة الأشياء المتحركة ويظهر قدرته على الانتقال بين مجالات البيانات، مثل من البيئات الخارجية إلى البيئات الداخلية. الفكرة الرئيسية هي إدخال الهيكل الهندسي في عملية التعلم، من خلال نمذجة المشهد والأجسام الفردية؛ يتم تعلم حركة الكاميرا وحركات الأجسام من مقاطع الفيديو الأحادية العدسة كمدخل.بالإضافة إلى ذلك، تم تقديم طريقة تحسين عبر الإنترنت لتكييف التعلم بشكل فوري مع المجالات غير المعروفة. النهج المقترح يتفوق على جميع النماذج الرائدة حاليًا، بما في ذلك تلك التي تعامل مع الحركة، مثل من خلال التدفق المستفاد (learned flow). نتائجنا مكافئة في الجودة لتلك التي استخدمت الإشراف الثنائي العدسة وتحسن بشكل كبير التنبؤ بالعمق في المشاهد والمجموعات التي تحتوي على الكثير من حركة الأجسام. هذا النهج له أهمية عملية، حيث أنه يسمح بالانتقال بين البيئات بنقل النماذج المدربة على بيانات جُمعت لملاحة الروبوت في المشاهد الحضرية إلى إعدادات الملاحة الداخلية. يمكن العثور على الكود المرتبط بهذه الورقة البحثية على الرابط: https://sites.google.com/view/struct2depth.