ManyDepth2: تقدير عمق مونوكولار ذاتي التدريب المستندة إلى الوعي بالحركة في المشاهد الديناميكية

على الرغم من التقدم المحرز في تقدير العمق من منظور واحد ذاتي التدريب، تظل هناك تحديات قائمة في السيناريوهات الديناميكية نظرًا للاعتماد على افتراضات حول عالم ثابت. في هذه الورقة، نقدّم "Manydepth2"، التي تهدف إلى تحقيق تقدير دقيق للعمق لكل من الأجسام المتحركة والخلفيات الثابتة، مع الحفاظ على الكفاءة الحسابية. وللتغلب على التحديات الناتجة عن المحتوى الديناميكي، ندمج التدفق البصري (optical flow) مع تقدير العمق من منظور واحد خشن (coarse monocular depth) لإنشاء إطار مرجعي افتراضي ثابت. يُستخدم هذا الإطار لاحقًا في بناء حجم تكلفة واعٍ بالحركة (motion-aware cost volume) بالتعاون مع الإطار الهدف الأصلي. علاوةً على ذلك، لتحسين دقة وثبات بنية الشبكة، نقترح شبكة عمق تعتمد على الانتباه (attention-based depth network) التي تُدمج بشكل فعّال المعلومات من خرائط الميزات على مقاييس مختلفة من خلال دمج آليات الانتباه القناة (channel attention) والانتباه غير المحلي (non-local attention). مقارنةً بالأساليب ذات التكلفة الحسابية المشابهة، تحقق "Manydepth2" خفضًا ملحوظًا بنسبة حوالي 5% في متوسط الجذر التربيعي للخطأ (root-mean-square error) في تقدير العمق من منظور واحد ذاتي التدريب على مجموعة بيانات KITTI-2015. يمكن العثور على الكود على الرابط التالي: https://github.com/kaichen-z/Manydepth2.