HyperAIHyperAI
منذ 16 أيام

VMLoc: تكامل متغير للتعلم القائم على التعددية الحسية لتحديد موقع الكاميرا

Kaichen Zhou, Changhao Chen, Bing Wang, Muhamad Risqi U. Saputra, Niki Trigoni, Andrew Markham
VMLoc: تكامل متغير للتعلم القائم على التعددية الحسية لتحديد موقع الكاميرا
الملخص

أحرزت النماذج القائمة على التعلم مؤخرًا تقدّمًا ملحوظًا في مجال تحديد موقع الكاميرا في لقطة واحدة. ومع ذلك، لا تزال هناك فجوة في الدراسة فيما يتعلق بأفضل الطرق لدمج وحدات متعددة (مثل الصورة والعمق) والتعامل مع المدخلات المتأثرة أو المفقودة. ونلاحظ بشكل خاص أن النماذج السابقة التي تعتمد على التكامل العميق لا تتفوّق بشكل ملحوظ على النماذج التي تعتمد على وحدة واحدة فقط. ونفترض أن السبب في ذلك يكمن في الطرق البسيطة المستخدمة في دمج فضاء الميزات من خلال الجمع أو التسلسل، والتي لا تأخذ بعين الاعتبار المزايا المختلفة لكل وحدة. ولحل هذه المشكلة، نقترح إطارًا متكاملًا من الطرف إلى الطرف، يُسمى VMLoc، يقوم بدمج مدخلات الاستشعار المختلفة إلى فضاء خفي مشترك من خلال نموذج "حاصل الضرب للخبراء" (Product-of-Experts) المتغير، تليه عملية دمج تعتمد على الانتباه. على عكس الدراسات السابقة في مجال التكامل المتعدد الوحدات التي تُعدّل مباشرة دالة الهدف في المُشفّر التلقائي المتغير القياسي، نُظهر كيف يمكن تقدير موقع الكاميرا بدقة من خلال دالة هدف غير متحيّزة تعتمد على ترجيح الأهمية. وقد تم تقييم نموذجنا بشكل واسع على مجموعات بيانات RGB-D، وأثبتت النتائج فعالية النموذج. ويمكن الوصول إلى الشفرة المصدرية عبر الرابط: https://github.com/kaichen-z/VMLoc.

VMLoc: تكامل متغير للتعلم القائم على التعددية الحسية لتحديد موقع الكاميرا | أحدث الأوراق البحثية | HyperAI