تعلم العمق والحركة الذاتية المتسقة مع القياس دون إشراف من فيديو أحادي العين

أظهرت الأعمال الحديثة أن مقدّرات العمق والحركة الذاتية المستندة إلى شبكات النيورونات التلافيكية (CNN) يمكن تعلمها باستخدام مقاطع الفيديو الأحادية البصر غير المصنفة. ومع ذلك، فإن الأداء يُحد من قبل الأجسام المتحركة غير المعروفة التي تخالف فرضية المشهد الثابت في إعادة بناء الصورة الهندسية. بشكل أكثر أهمية، بسبب نقص القيود المناسبة، تنتج الشبكات نتائج غير متسقة في الحجم عبر العينات المختلفة، بمعنى آخر، لا يمكن لمقدّر الحركة الذاتية توفير مسارات الكاميرا الكاملة على مدى سلسلة فيديو طويلة بسبب الغموض الحجمي لكل إطار. يعالج هذا البحث هذه التحديات من خلال اقتراح خسارة ثبات الهندسة للتنبؤات المتسقة في الحجم وقناع ذاتي مستكشف مستوحى لمعالجة الأجسام المتحركة والخسوف. بما أننا لا نستفيد من تعلم المهام المتعددة كما هو الحال في الأعمال الحديثة، فإن إطار عملنا أبسط بكثير وأكثر كفاءة. تُظهر النتائج التقييمية الشاملة أن مقدّر العمق لدينا يحقق أداءً رائدًا على مجموعة بيانات KITTI. بالإضافة إلى ذلك، نوضح أن شبكة الحركة الذاتية لدينا قادرة على التنبؤ بمسار الكاميرا المتسق عالمياً في الحجم لسلسلة الفيديو الطويلة، وأن دقة الملاحة البصرية الناتجة تنافس النماذج الحديثة التي تم تدريبها باستخدام مقاطع الفيديو الثنائية البصر. حسب علم us، هذه هي أول دراسة تُظهر أن الشبكات العميقة التي يتم تدريبها باستخدام مقاطع الفيديو الأحادية البصر غير المصنفة يمكنها التنبؤ بمسارات الكاميرا المتسقة عالمياً في الحجم على مدى سلسلة الفيديو الطويلة.请注意,最后一句中的"us"应该是"نا",这是阿拉伯语中表示“我们”的意思。因此,正确的翻译应该是:حسب علم نا، هذه هي أول دراسة تُظهر أن الشبكات العميقة التي يتم تدريبها باستخدام مقاطع الفيديو الأحادية البصر غير المصنفة يمكنها التنبؤ بمسارات الكاميرا المتسقة عالمياً في الحجم على مدى سلسلة الفيديو الطويلة.