ECoDepth: التكييف الفعّال للنماذج الانتشارية لتقدير العمق من صورة واحدة

في غياب معلومات التباين (parallax cues)، يعتمد نموذج التقدير العددي للعمق من صورة واحدة القائم على التعلم (SIDE) بشكل كبير على إشارات التظليل (shading) والدلائل السياقية في الصورة. وعلى الرغم من بساطة هذا النهج، فإنه يتطلب تدريب هذه النماذج على مجموعات بيانات كبيرة ومتنوعة، وهي مجموعات يصعب جمعها. وقد أظهرت الدراسات أن استخدام التضمينات (embeddings) المستمدة من النماذج الأساسية المدربة مسبقًا، مثل CLIP، يُحسّن من أداء النقل الصفرية (zero-shot transfer) في عدة تطبيقات. مستلهمين من هذا المفهوم، نستعرض في هذا البحث استخدام معلومات سياقية عالمية (global image priors) مُولَّدة من نموذج ViT المدرب مسبقًا، بهدف توفير معلومات سياقية أكثر تفصيلًا. ونُقدّم رأينا بأن متجه التضمين من نموذج ViT المدرب على مجموعة بيانات كبيرة يلتقط معلومات ذات صلة أكثر فاعلية للتطبيقات المتعلقة بـ SIDE، مقارنة بالطريقة التقليدية التي تعتمد على إنشاء عناوين افتراضية للصور (pseudo image captions)، ثم استخلاص التضمينات النصية باستخدام CLIP. استنادًا إلى هذه الفكرة، نقترح نموذجًا جديدًا لـ SIDE يعتمد على هيكل مُدمج (diffusion backbone) مشروطًا بتضمينات ViT. ويُعد التصميم المقترح الأفضل حتى الآن (SOTA) في مجال SIDE على مجموعة بيانات NYUv2، حيث حقق خطأ مطلق نسبي (Abs Rel) قدره 0.059 (بزيادة بنسبة 14% مقارنة بـ 0.069 التي حققها النموذج الحالي SOTA، وهو VPD). كما حقق أداءً متميزًا على مجموعة بيانات KITTI، حيث بلغ خطأ مربع النسبي (Sq Rel) 0.139 (بتحسين نسبي قدره 2% مقارنة بـ 0.142 للنموذج SOTA الحالي GEDepth). وبالنسبة للنقل الصفرية (zero-shot transfer) باستخدام نموذج تم تدريبه على بيانات NYUv2، نُبلغ عن تحسين متوسط نسبي قدره (20%، 23%، 81%، 25%) مقارنة بـ NeWCRFs على مجموعات بيانات (Sun-RGBD، iBims1، DIODE، HyperSim)، مقابل (16%، 18%، 45%، 9%) بالنسبة لـ ZoeDepth. يمكن الاطلاع على صفحة المشروع من خلال الرابط التالي: https://ecodepth-iitd.github.io