HyperAIHyperAI
منذ 17 أيام

D-Net: شبكة عميقة عامة ومحسّنة لتقدير العمق من صورة واحدة

{Abdesselam Bouzerdoum, Son Lam Phung, Joshua Luke Thompson}
الملخص

يُعد تقدير العمق عنصراً أساسياً في أنظمة الرؤية الحاسوبية لتحقيق فهم ثلاثي الأبعاد للسينة. يمتلك تقدير الخريطة العميقة بكفاءة ودقة تطبيقات عديدة، بما في ذلك المركبات ذاتية القيادة وأدوات الواقع الافتراضي. تقدم هذه الورقة شبكة عميقة جديدة تُسمى D-Net لتقدير العمق من صورة RGB واحدة. يمكن تدريب الشبكة المقترحة بشكل متكامل (end-to-end)، ويمكن تخصيص هيكلها لتلبية متطلبات مختلفة فيما يتعلق بحجم النموذج، وسرعة الأداء، ودقة التنبؤ. تعتمد طريقةنا على جمع ميزات سياقية قوية على المستويات العالمية والمحليّة في عدة دوال تفصيلية، ثم نُحول هذه الميزات إلى دوال تفصيلية عالية لتقديم خرائط عمق أكثر وضوحاً. بالنسبة للهيكل الأساسي للـ encoder، يمكن لـ D-Net استخدام العديد من النماذج الرائدة حديثاً، بما في ذلك EfficientNet وHRNet وSwin Transformer، للحصول على خرائط عميقة كثيفة. تم تصميم D-Net المقترحة لتكون ذات عدد قليل من المعاملات (parame ters) وتعقيد حسابي منخفض. أظهرت التقييمات الواسعة على مجموعتي بيانات المعايير NYUv2 وKITTI أن نموذجنا دقيق للغاية عبر عدة هيكل أساسي، كما يحقق أداءً متفوّقاً على مستوى الحالة (state-of-the-art) في كلا المعيارين عند دمجها مع Swin Transformer وHRNet.