منذ 6 أشهر

الملخص

في غياب معلومات التباين (parallax cues)، يعتمد نموذج التقدير العددي للعمق من صورة واحدة القائم على التعلم (SIDE) بشكل كبير على إشارات التظليل (shading) والدلائل السياقية في الصورة. وعلى الرغم من بساطة هذا النهج، فإنه يتطلب تدريب هذه النماذج على مجموعات بيانات كبيرة ومتنوعة، وهي مجموعات يصعب جمعها. وقد أظهرت الدراسات أن استخدام التضمينات (embeddings) المستمدة من النماذج الأساسية المدربة مسبقًا، مثل CLIP، يُحسّن من أداء النقل الصفرية (zero-shot transfer) في عدة تطبيقات. مستلهمين من هذا المفهوم، نستعرض في هذا البحث استخدام معلومات سياقية عالمية (global image priors) مُولَّدة من نموذج ViT المدرب مسبقًا، بهدف توفير معلومات سياقية أكثر تفصيلًا. ونُقدّم رأينا بأن متجه التضمين من نموذج ViT المدرب على مجموعة بيانات كبيرة يلتقط معلومات ذات صلة أكثر فاعلية للتطبيقات المتعلقة بـ SIDE، مقارنة بالطريقة التقليدية التي تعتمد على إنشاء عناوين افتراضية للصور (pseudo image captions)، ثم استخلاص التضمينات النصية باستخدام CLIP. استنادًا إلى هذه الفكرة، نقترح نموذجًا جديدًا لـ SIDE يعتمد على هيكل مُدمج (diffusion backbone) مشروطًا بتضمينات ViT. ويُعد التصميم المقترح الأفضل حتى الآن (SOTA) في مجال SIDE على مجموعة بيانات NYUv2، حيث حقق خطأ مطلق نسبي (Abs Rel) قدره 0.059 (بزيادة بنسبة 14% مقارنة بـ 0.069 التي حققها النموذج الحالي SOTA، وهو VPD). كما حقق أداءً متميزًا على مجموعة بيانات KITTI، حيث بلغ خطأ مربع النسبي (Sq Rel) 0.139 (بتحسين نسبي قدره 2% مقارنة بـ 0.142 للنموذج SOTA الحالي GEDepth). وبالنسبة للنقل الصفرية (zero-shot transfer) باستخدام نموذج تم تدريبه على بيانات NYUv2، نُبلغ عن تحسين متوسط نسبي قدره (20%، 23%، 81%، 25%) مقارنة بـ NeWCRFs على مجموعات بيانات (Sun-RGBD، iBims1، DIODE، HyperSim)، مقابل (16%، 18%، 45%، 9%) بالنسبة لـ ZoeDepth. يمكن الاطلاع على صفحة المشروع من خلال الرابط التالي: https://ecodepth-iitd.github.io

ملف PDF المصدر

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي

وحدات GPU جاهزة للعمل

أفضل الأسعار

ابدأ عرض الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا

سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين

مدعوم بواسطة MailChimp

الملخص

Suraj Patni Aradhye Agarwal Chetan Arora

الملخص

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

HyperAI Newsletters

Suraj Patni Aradhye Agarwal Chetan Arora

الملخص

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

HyperAI Newsletters

Suraj Patni Aradhye Agarwal Chetan Arora

الملخص

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

HyperAI Newsletters

Command Palette

ECoDepth: التكييف الفعّال للنماذج الانتشارية لتقدير العمق من صورة واحدة

Suraj Patni Aradhye Agarwal Chetan Arora

الملخص

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

HyperAI Newsletters

Command Palette

ECoDepth: التكييف الفعّال للنماذج الانتشارية لتقدير العمق من صورة واحدة

Suraj Patni Aradhye Agarwal Chetan Arora

الملخص

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

HyperAI Newsletters

Command Palette

ECoDepth: التكييف الفعّال للنماذج الانتشارية لتقدير العمق من صورة واحدة

Suraj Patni Aradhye Agarwal Chetan Arora

الملخص

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

HyperAI Newsletters