HyperAIHyperAI
منذ 2 أشهر

استكشاف كفاءة نماذج التحول البصري لتقدير العمق المنفرد المعتمد على التعلم ذاتيًا

{Ilya Makarov, Aleksei Karpov}
استكشاف كفاءة نماذج التحول البصري لتقدير العمق المنفرد المعتمد على التعلم ذاتيًا
الملخص

يُعد تقدير العمق مهمة أساسية لإنشاء خرائط العمق، أحد المكونات الأكثر أهمية في الواقع المعزز (AR) والتطبيقات الأخرى. ومع ذلك، فإن الأكثر استخدامًا من الأجهزة في مجال الواقع المعزز والهواتف الذكية يمتلك فقط أجهزة استشعار عمق متباعدة، وبطرق مختلفة لجمع عمق الحقيقة الأساسية. وبالتالي، يمكن تدريب نماذج تقدير العمق التي تكون قوية أداءً في المهام اللاحقة للواقع المعزز فقط باستخدام التعلم الذاتي المبني على معلومات الكاميرا. ركزت الدراسات السابقة في هذا المجال بشكل رئيسي على النماذج ذات التعلم الذاتي ذات البنية البحتة القائمة على التحويلات التلافيفية، دون أخذ السياق المكاني العالمي بعين الاعتبار. في هذا البحث، نستخدم هياكل نماذج التحويل البصري (Vision Transformer) لتقدير العمق الأحادي ذاتي التعلم، ونُقدّم VTDepth، وهو نموذج مبني على التحويل البصري، الذي يقدّم حلاً لمشكلة السياق المكاني العالمي. ونقارن بين مختلف التراكيب الممكنة بين الهياكل التلافيفية والتحويلية لتقدير العمق ذاتي التعلم، ونُظهر أن أفضل تركيبة للنماذج هي المُشفر (Encoder) المبني على التحويل البصري مع فك التشفير (Decoder) التلافيفي. تُظهر تجاربنا كفاءة نموذج VTDepth في تقدير العمق ذاتي التعلم. وتُحقق مجموعتنا من النماذج أداءً متقدمًا على مستوى الحد الأقصى (state-of-the-art) في التعلم ذاتي التعلم على مجموعتي بيانات NYUv2 وKITTI. يمكن الوصول إلى الكود الخاص بنا من خلال الرابط التالي: https://github.com/ahbpp/VTDepth.