HyperAIHyperAI

Command Palette

Search for a command to run...

ECoDepth: التكييف الفعّال للنماذج الانتشارية لتقدير العمق من صورة واحدة

Suraj Patni Aradhye Agarwal Chetan Arora

الملخص

في غياب معلومات التباين (parallax cues)، يعتمد نموذج التقدير العددي للعمق من صورة واحدة القائم على التعلم (SIDE) بشكل كبير على إشارات التظليل (shading) والدلائل السياقية في الصورة. وعلى الرغم من بساطة هذا النهج، فإنه يتطلب تدريب هذه النماذج على مجموعات بيانات كبيرة ومتنوعة، وهي مجموعات يصعب جمعها. وقد أظهرت الدراسات أن استخدام التضمينات (embeddings) المستمدة من النماذج الأساسية المدربة مسبقًا، مثل CLIP، يُحسّن من أداء النقل الصفرية (zero-shot transfer) في عدة تطبيقات. مستلهمين من هذا المفهوم، نستعرض في هذا البحث استخدام معلومات سياقية عالمية (global image priors) مُولَّدة من نموذج ViT المدرب مسبقًا، بهدف توفير معلومات سياقية أكثر تفصيلًا. ونُقدّم رأينا بأن متجه التضمين من نموذج ViT المدرب على مجموعة بيانات كبيرة يلتقط معلومات ذات صلة أكثر فاعلية للتطبيقات المتعلقة بـ SIDE، مقارنة بالطريقة التقليدية التي تعتمد على إنشاء عناوين افتراضية للصور (pseudo image captions)، ثم استخلاص التضمينات النصية باستخدام CLIP. استنادًا إلى هذه الفكرة، نقترح نموذجًا جديدًا لـ SIDE يعتمد على هيكل مُدمج (diffusion backbone) مشروطًا بتضمينات ViT. ويُعد التصميم المقترح الأفضل حتى الآن (SOTA) في مجال SIDE على مجموعة بيانات NYUv2، حيث حقق خطأ مطلق نسبي (Abs Rel) قدره 0.059 (بزيادة بنسبة 14% مقارنة بـ 0.069 التي حققها النموذج الحالي SOTA، وهو VPD). كما حقق أداءً متميزًا على مجموعة بيانات KITTI، حيث بلغ خطأ مربع النسبي (Sq Rel) 0.139 (بتحسين نسبي قدره 2% مقارنة بـ 0.142 للنموذج SOTA الحالي GEDepth). وبالنسبة للنقل الصفرية (zero-shot transfer) باستخدام نموذج تم تدريبه على بيانات NYUv2، نُبلغ عن تحسين متوسط نسبي قدره (20%، 23%، 81%، 25%) مقارنة بـ NeWCRFs على مجموعات بيانات (Sun-RGBD، iBims1، DIODE، HyperSim)، مقابل (16%، 18%، 45%، 9%) بالنسبة لـ ZoeDepth. يمكن الاطلاع على صفحة المشروع من خلال الرابط التالي: https://ecodepth-iitd.github.io


بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي
وحدات GPU جاهزة للعمل
أفضل الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp