منذ 6 أشهر

الملخص

تتناول هذه الدراسة مهمة التقدير الصوتي للعمق من منظور منفرد دون تدريب مسبق (zero-shot monocular depth estimation). وقد شهد هذا المجال تقدماً حديثاً من خلال استخدام نماذج الأساس النصية-الصورية (Text-to-Image foundation models)، مثل Stable Diffusion. تُوفّر نماذج الأساس تمثيلاً صورياً غنياً وعاماً، وبالتالي فإن كمية البيانات التدريبية المطلوبة لتكييفها كنموذج لتقدير العمق يكون ضئيلاً، مما يُنتج خرائط عمق مفصلة للغاية وقدرة تعميم جيدة. ومع ذلك، فإن تنفيذ هذه الفكرة حتى الآن أدى إلى طرق تُعد غير فعّالة جداً أثناء الاختبار، وذلك بسبب العملية التكرارية لتقليل الضوضاء الكامنة وراءها. في هذا العمل، نقترح نهجاً مختلفاً لتنفيذ هذه الفكرة، ونقدّم طريقة تُسمى PrimeDepth، والتي تتميز بفعالية عالية أثناء الاختبار، مع الحفاظ على أو حتى تحسين الجوانب الإيجابية للطرق القائمة على التفتيت (diffusion-based approaches). تكمن الفكرة الأساسية في استخراج تمثيل صوري غني لكنه ثابت (frozen) من Stable Diffusion من خلال تنفيذ خطوة واحدة لتقليل الضوضاء. نُطلق على هذا التمثيل اسم "الصورة المسبقة" (preimage)، والتي تُقدّم بعد ذلك إلى شبكة تحسين (refiner network) ذات تحيّز تراكبي مُصمم مسبقاً، قبل الدخول إلى المهمة المستهدفة. ونُثبت تجريبياً أن PrimeDepth أسرع بمرتين من المعيار (two orders of magnitude) مقارنة بالطريقة القائمة على التفتيت الرائدة، Marigold، مع تفوّقها في المرونة أمام السيناريوهات الصعبة، وتفوّقها الكمي قليلاً. وبذلك، نقلل الفجوة بيننا وبين الطريقة المُعتمدة على البيانات الرائدة حالياً، Depth Anything، التي لا تزال تتفوّق كمياً، لكنها تُنتج خرائط عمق أقل تفصيلاً، وتحتاج إلى 20 مرة أكثر من البيانات المُعلّمة. وبسبب الطبيعة المكملة لنهجنا، حتى متوسط بسيط بين تنبؤات PrimeDepth وDepth Anything يُفوق كلا الطرائق، ويُشكّل حالة جديدة من الأفضلية في تقدير العمق من منظور منفرد دون تدريب مسبق. في المستقبل، قد تستفيد الطرق المُعتمدة على البيانات أيضاً من دمج "الصورة المسبقة" التي نقدّمها.

ملف PDF المصدر عرض الكود

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي

وحدات GPU جاهزة للعمل

أفضل الأسعار

ابدأ عرض الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا

سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين

مدعوم بواسطة MailChimp

الملخص

Denis Zavadski Damjan Kalšan Carsten Rother

الملخص

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

HyperAI Newsletters

Denis Zavadski Damjan Kalšan Carsten Rother

الملخص

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

HyperAI Newsletters

Denis Zavadski Damjan Kalšan Carsten Rother

الملخص

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

HyperAI Newsletters

Command Palette

PrimeDepth: تقدير عمق منفرد فعّال باستخدام صورة ما قبل التمايز المستقرة

Denis Zavadski Damjan Kalšan Carsten Rother

الملخص

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

HyperAI Newsletters

Command Palette

PrimeDepth: تقدير عمق منفرد فعّال باستخدام صورة ما قبل التمايز المستقرة

Denis Zavadski Damjan Kalšan Carsten Rother

الملخص

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

HyperAI Newsletters

Command Palette

PrimeDepth: تقدير عمق منفرد فعّال باستخدام صورة ما قبل التمايز المستقرة

Denis Zavadski Damjan Kalšan Carsten Rother

الملخص

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

HyperAI Newsletters