HyperAIHyperAI

Command Palette

Search for a command to run...

VMLoc: تكامل متغير للتعلم القائم على التعددية الحسية لتحديد موقع الكاميرا

Kaichen Zhou Changhao Chen Bing Wang Muhamad Risqi U. Saputra Niki Trigoni Andrew Markham

الملخص

أحرزت النماذج القائمة على التعلم مؤخرًا تقدّمًا ملحوظًا في مجال تحديد موقع الكاميرا في لقطة واحدة. ومع ذلك، لا تزال هناك فجوة في الدراسة فيما يتعلق بأفضل الطرق لدمج وحدات متعددة (مثل الصورة والعمق) والتعامل مع المدخلات المتأثرة أو المفقودة. ونلاحظ بشكل خاص أن النماذج السابقة التي تعتمد على التكامل العميق لا تتفوّق بشكل ملحوظ على النماذج التي تعتمد على وحدة واحدة فقط. ونفترض أن السبب في ذلك يكمن في الطرق البسيطة المستخدمة في دمج فضاء الميزات من خلال الجمع أو التسلسل، والتي لا تأخذ بعين الاعتبار المزايا المختلفة لكل وحدة. ولحل هذه المشكلة، نقترح إطارًا متكاملًا من الطرف إلى الطرف، يُسمى VMLoc، يقوم بدمج مدخلات الاستشعار المختلفة إلى فضاء خفي مشترك من خلال نموذج "حاصل الضرب للخبراء" (Product-of-Experts) المتغير، تليه عملية دمج تعتمد على الانتباه. على عكس الدراسات السابقة في مجال التكامل المتعدد الوحدات التي تُعدّل مباشرة دالة الهدف في المُشفّر التلقائي المتغير القياسي، نُظهر كيف يمكن تقدير موقع الكاميرا بدقة من خلال دالة هدف غير متحيّزة تعتمد على ترجيح الأهمية. وقد تم تقييم نموذجنا بشكل واسع على مجموعات بيانات RGB-D، وأثبتت النتائج فعالية النموذج. ويمكن الوصول إلى الشفرة المصدرية عبر الرابط: https://github.com/kaichen-z/VMLoc.


بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي
وحدات GPU جاهزة للعمل
أفضل الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp