إلى تقدير عميق داخلي ثنائي الأبعاد عملي باستخدام كاميرا واحدة

تركز معظم الطرق السابقة لتقدير العمق من صورة واحدة دون توجيه بالعمق الحقيقي على سيناريوهات القيادة. نُظهر أن هذه الطرق لا تُعمّم بشكل جيد على المشاهد الداخلية المعقدة غير المُشاهَدة سابقًا، حيث تكون الأشياء مزدحمة ومرتبة بشكل عشوائي في المجال القريب. ولتحقيق مزيد من المرونة، نقترح أسلوبًا يُسمّى "استخلاص البنية" لتعلم المهارات من مُقدّر عمق نسبي جاهز للاستخدام يُنتج عمقًا منظمًا لكنه غير مُقيّس من حيث الوحدات. وبدمج استخلاص البنية مع فرع يتعلّم القياسات من اتساق الصورة اليسرى والصورة اليمنى، نحقق عمقًا منظمًا ومقاسًا مناسبًا لجميع المشاهد الداخلية العامة، مع إمكانية إجراء استنتاجات في الوقت الفعلي. ولتسهيل التعلّم والتقييم، جمعنا مجموعة بيانات تُسمّى SimSIN، مُستمدة من المحاكاة وتحتوي على آلاف البيئات، بالإضافة إلى مجموعة بيانات أخرى تُسمّى UniSIN، التي تتضمّن حوالي 500 تسلسلًا حقيقيًا لمسح لبيئات داخلية عامة. أجرينا تجارب في بيئة المحاكاة إلى العالم الحقيقي (sim-to-real) وفي بيئة العالم الحقيقي إلى العالم الحقيقي (real-to-real)، ونُظهر تحسينات واضحة، فضلًا عن تحسين الأداء في التطبيقات اللاحقة باستخدام خرائط العمق التي ننتجها. يقدّم هذا العمل دراسة شاملة تغطي الجوانب المتعلقة بالأساليب، والبيانات، والتطبيقات.