HyperAIHyperAI

Command Palette

Search for a command to run...

تعلم الانحدار المطلق لوضع المشهد المتعدد باستخدام المحولات

Yoli Shavit Ron Ferens Yosi Keller

الملخص

تنشئ نماذج التقدير المطلق لموضع الكاميرا (absolute camera pose regressors) موضع الكاميرا واتجاهها من الصورة المُلتقطة وحدها. عادةً، يتم تدريب نموذج يعتمد على هيكل تلافيفي (convolutional backbone) مع رأس يعتمد على شبكة عصبية متعددة الطبقات (MLP) باستخدام صور وملصقات لموضع الكاميرا، بهدف تضمين مشهد مرجعي واحد في كل مرة. في الآونة الأخيرة، تم توسيع هذا النموذج ليدعم تعلّم مشاهد متعددة من خلال استبدال رأس MLP بجموعة من الطبقات المتصلة بالكامل. في هذا العمل، نقترح تعلّم تقدير موضع الكاميرا المطلق لمشاهد متعددة باستخدام نماذج Transformers، حيث تُستخدم المشفرات (encoders) لجمع خرائط التنشيط باستخدام الانتباه الذاتي (self-attention)، بينما تُستخدم المُفكّكات (decoders) لتحويل السمات المخفية وتمثيل المشاهد إلى توقعات موضعية مرشحة. يتيح هذا الميكانيزم للنموذج التركيز على السمات العامة المفيدة للتحديد المكاني، مع إمكانية تضمين عدة مشاهد بالتوازي. قمنا بتقييم منهجنا على مجموعات بيانات شائعة الاستخدام للبيئات الداخلية والخارجية، وبيّنا أنه يتفوق على كل من النماذج المتعددة المشاهد والنموذج الأفضل أداءً في حالة المشهد الواحد. نُعلن عن توفر الكود الخاص بنا بشكل عام من خلال الرابط التالي: https://github.com/yolish/multi-scene-pose-transformer.


بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي
وحدات GPU جاهزة للعمل
أفضل الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp