HyperAIHyperAI

Command Palette

Search for a command to run...

استكشاف كفاءة نماذج التحول البصري لتقدير العمق المنفرد المعتمد على التعلم ذاتيًا

Ilya Makarov Aleksei Karpov

الملخص

يُعد تقدير العمق مهمة أساسية لإنشاء خرائط العمق، أحد المكونات الأكثر أهمية في الواقع المعزز (AR) والتطبيقات الأخرى. ومع ذلك، فإن الأكثر استخدامًا من الأجهزة في مجال الواقع المعزز والهواتف الذكية يمتلك فقط أجهزة استشعار عمق متباعدة، وبطرق مختلفة لجمع عمق الحقيقة الأساسية. وبالتالي، يمكن تدريب نماذج تقدير العمق التي تكون قوية أداءً في المهام اللاحقة للواقع المعزز فقط باستخدام التعلم الذاتي المبني على معلومات الكاميرا. ركزت الدراسات السابقة في هذا المجال بشكل رئيسي على النماذج ذات التعلم الذاتي ذات البنية البحتة القائمة على التحويلات التلافيفية، دون أخذ السياق المكاني العالمي بعين الاعتبار. في هذا البحث، نستخدم هياكل نماذج التحويل البصري (Vision Transformer) لتقدير العمق الأحادي ذاتي التعلم، ونُقدّم VTDepth، وهو نموذج مبني على التحويل البصري، الذي يقدّم حلاً لمشكلة السياق المكاني العالمي. ونقارن بين مختلف التراكيب الممكنة بين الهياكل التلافيفية والتحويلية لتقدير العمق ذاتي التعلم، ونُظهر أن أفضل تركيبة للنماذج هي المُشفر (Encoder) المبني على التحويل البصري مع فك التشفير (Decoder) التلافيفي. تُظهر تجاربنا كفاءة نموذج VTDepth في تقدير العمق ذاتي التعلم. وتُحقق مجموعتنا من النماذج أداءً متقدمًا على مستوى الحد الأقصى (state-of-the-art) في التعلم ذاتي التعلم على مجموعتي بيانات NYUv2 وKITTI. يمكن الوصول إلى الكود الخاص بنا من خلال الرابط التالي: https://github.com/ahbpp/VTDepth.


بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي
وحدات GPU جاهزة للعمل
أفضل الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp