EPP-MVSNet: تنبؤ بالعمق المستند إلى تجميع الأفلاك لرؤية متعددة للآليات

في هذه الورقة، قمنا بطرح EPP-MVSNet، وهو شبكة تعلم عميق جديدة لاستعادة ثلاثية الأبعاد من الصور متعددة الزوايا (MVS). تُمكن EPP-MVSNet من جمع السمات بدقة على دقة عالية إلى حجم تكلفة محدود بحدود عمق مثلى، مما يؤدي إلى بناء ثلاثي الأبعاد بشكل فعّال وكفؤ. على عكس الطرق الحالية التي تقيس تكلفة السمات عند مواقع منفصلة، مما يؤثر سلبًا على دقة الاستعادة ثلاثية الأبعاد، فإن EPP-MVSNet تُقدّم نواة تعتمد على تجميع الخطوط الإبيبولية (epipolar assembling) تعمل على فترات مُعدّلة على طول الخطوط الإبيبولية، بهدف الاستفادة القصوى من دقة الصورة. علاوة على ذلك، نُقدّم استراتيجية تحسين تعتمد على الإنتروبيا، حيث يصف حجم التكلفة الهندسة الفضائية بحد أدنى من التكرار. وبالإضافة إلى ذلك، صممنا شبكة خفيفة الوزن تدمج عمليات الت convolution ثلاثية الأبعاد الافتراضية (Pseudo-3D convolutions) لتحقيق دقة عالية وكفاءة متميزة. أجرينا تجارب واسعة على مجموعات بيانات صعبة مثل Tanks & Temples (TNT)، وETH3D، وDTU. وفي النتيجة، حققنا نتائج واعدة على جميع المجموعات، وسجلنا أعلى قيمة F-Score في المعيار المتوسط عبر الإنترنت لـ TNT. يمكن الوصول إلى الكود من خلال الرابط التالي: https://gitee.com/mindspore/mindspore/tree/master/model_zoo/research/cv/eppmvsnet.