UniDepth: تقدير عمق مترى أحادي شامل

يُعد التقدير الدقيق للعمق الطرفي المترى (MMDE) أمراً حاسماً لحل المهام التالية في التوصّل الثلاثي الأبعاد والنمذجة. ومع ذلك، فإن الدقة العالية المميزة للأساليب الحديثة لـ MMDE محدودة بمجالات التدريب الخاصة بها. فهذه الأساليب تفشل في التعميم على مجالات غير مرئية، حتى في حال وجود فجوات مجالية معتدلة، مما يحد من تطبيقاتها العملية. نُقدّم نموذجاً جديداً يُسمّى UniDepth، قادرًا على إعادة بناء المشاهد ثلاثية الأبعاد المترية من صور واحدة فقط عبر مجالات مختلفة. على عكس الأساليب الحالية لـ MMDE، يُقدّم UniDepth تنبؤاً مباشرة بالنقاط ثلاثية الأبعاد المترية من الصورة المدخلة أثناء الاستدلال، دون الحاجة إلى أي معلومات إضافية، مسعىً لتحقيق حل شامل ومرن لمشكلة MMDE. وبشكل خاص، يُطبّق UniDepth وحدة كاميرا ذات قدرة تلقائية على التحفيز (self-promptable camera module) تُقدّر تمثيلاً كاميراتياً كثيفاً لتنبيه ميزات العمق. ويستفيد نموذجنا من تمثيل مخرجات خيالي كروي (pseudo-spherical output representation)، الذي يفصل بين تمثيلات الكاميرا وتمثيلات العمق. علاوةً على ذلك، نقترح خسارة تُسمّى "خسارة التماثل الهندسي" (geometric invariance loss)، التي تعزز التماثل في ميزات العمق المُحفّزة بالكاميرا. وقد أظهرت التقييمات الشاملة على عشرة مجموعات بيانات في بيئة الاستخدام الصفرية (zero-shot regime) أداءً متفوّقاً بشكل متسق لنموذج UniDepth، حتى مقارنةً بالأساليب التي تم تدريبها مباشرة على مجالات الاختبار. يمكن الوصول إلى الكود والنماذج من خلال: https://github.com/lpiccinelli-eth/unidepth