Atlas: إعادة بناء المشهد ثلاثي الأبعاد من النماذج المُصوّرة بوضع مُحدّد بشكل كامل

نقدّم طريقة إعادة بناء ثلاثية الأبعاد من النهاية إلى النهاية لمشهد باستخدام الانحدار المباشر لدالة المسافة الموقّعة المقطوعة (TSDF) من مجموعة من الصور الملونة (RGB) ذات وضعيات محددة. تعتمد الأساليب التقليدية لإعادة بناء المشهد ثلاثي الأبعاد على تمثيل وسيط يُمثّل خرائط العمق قبل التقدير النهائي للنموذج ثلاثي الأبعاد الكامل. ونفترض أن الانحدار المباشر نحو الهيكل ثلاثي الأبعاد يكون أكثر فعالية. حيث يستخرج شبكة عصبية اصطناعية ثنائية الأبعاد (2D CNN) السمات من كل صورة بشكل مستقل، ثم تُعاد تProjected وتُجمَع في حجم مكوّن من مكعبات (Voxel Volume) باستخدام معاملات الكاميرا الداخلية والخارجية. وبعد عملية التجميع، تقوم شبكة عصبية اصطناعية ثلاثية الأبعاد (3D CNN) بتحسين السمات المجمعة وتتنبأ بقيم دالة TSDF. بالإضافة إلى ذلك، يتم الحصول على تجزئة دلالية (Semantic Segmentation) للنموذج ثلاثي الأبعاد دون استهلاك كبير للموارد الحسابية. وقد تم تقييم هذا النهج على مجموعة بيانات Scannet، حيث تفوقنا بشكل ملحوظ على النماذج الرائدة في المجال (الاستereo متعدد المقاطع العميق متبوعًا بدمج TSDF التقليدي) من حيث الأداء الكمي والكُمّي. ونقارن تجزئة النموذج ثلاثي الأبعاد الدلالية التي نقدمها مع الأساليب السابقة التي تعتمد على مستشعرات العمق، نظرًا لأن لا يوجد أي عمل سابق يعالج هذه المشكلة باستخدام مدخلات RGB فقط.