العمق القياسي المُقيَّس باستخدام نموذج تمايز مُربَّط بحقل الرؤية

بينما أحرزت الطرق الخاصة بتقدير العمق من صورة واحدة تقدماً كبيراً في المعايير القياسية القياسية، ما زال تقدير العمق القياسي الصفر-الانطلاقة (zero-shot metric depth estimation) مشكلة غير محلولة. من أبرز التحديات التي تواجهها هي النمذجة المشتركة للمناظر الداخلية والخارجية، التي تمثل عادةً توزيعات مختلفة بشكل كبير للصور بالألوان (RGB) والعُمق، إلى جانب غموض مقياس العُمق الناتج عن عدم معرفة معاملات الكاميرا الداخلية (camera intrinsics). وقد اقترح العمل الأخير هياكل متعددة الرؤوس متخصصة للنمذجة المشتركة للمناظر الداخلية والخارجية. في المقابل، ندعو إلى استخدام نموذج تشتت عام وغير مُخصص لمهام معينة، مع تطورات متعددة، منها استخدام معاملة العمق على المقياس اللوغاريتمي (log-scale depth parameterization) لتمكين النمذجة المشتركة للمناظر الداخلية والخارجية، واعتماد التكييف على مجال الرؤية (field-of-view - FOV) لمعالجة غموض المقياس، بالإضافة إلى تضخيم مجال الرؤية بشكل اصطناعي أثناء التدريب لضمان التعميم خارج نطاق معاملات الكاميرا المحدودة في مجموعات البيانات المستخدمة في التدريب. علاوة على ذلك، وباستخدام مزيج تدريب أكثر تنوعاً من المعتاد، وبنية تشتت فعالة، حقق نهجنا، المعروف بـ DMD (Diffusion for Metric Depth)، تقليلًا بنسبة 25٪ في الخطأ النسبي (REL) على مجموعات بيانات داخلية بدون تدريب مسبق (zero-shot)، وبنسبة 33٪ على مجموعات بيانات خارجية، متفوّقًا على أحدث الأداء (SOTA) الحالي، باستخدام عدد صغير جدًا من خطوات إزالة الضوضاء. لمحة عامة عن العمل يمكن الاطلاع عليها من خلال: https://diffusion-vision.github.io/dmd