تعلم الانحدار المطلق لوضع المشهد المتعدد باستخدام المحولات

تنشئ نماذج التقدير المطلق لموضع الكاميرا (absolute camera pose regressors) موضع الكاميرا واتجاهها من الصورة المُلتقطة وحدها. عادةً، يتم تدريب نموذج يعتمد على هيكل تلافيفي (convolutional backbone) مع رأس يعتمد على شبكة عصبية متعددة الطبقات (MLP) باستخدام صور وملصقات لموضع الكاميرا، بهدف تضمين مشهد مرجعي واحد في كل مرة. في الآونة الأخيرة، تم توسيع هذا النموذج ليدعم تعلّم مشاهد متعددة من خلال استبدال رأس MLP بجموعة من الطبقات المتصلة بالكامل. في هذا العمل، نقترح تعلّم تقدير موضع الكاميرا المطلق لمشاهد متعددة باستخدام نماذج Transformers، حيث تُستخدم المشفرات (encoders) لجمع خرائط التنشيط باستخدام الانتباه الذاتي (self-attention)، بينما تُستخدم المُفكّكات (decoders) لتحويل السمات المخفية وتمثيل المشاهد إلى توقعات موضعية مرشحة. يتيح هذا الميكانيزم للنموذج التركيز على السمات العامة المفيدة للتحديد المكاني، مع إمكانية تضمين عدة مشاهد بالتوازي. قمنا بتقييم منهجنا على مجموعات بيانات شائعة الاستخدام للبيئات الداخلية والخارجية، وبيّنا أنه يتفوق على كل من النماذج المتعددة المشاهد والنموذج الأفضل أداءً في حالة المشهد الواحد. نُعلن عن توفر الكود الخاص بنا بشكل عام من خلال الرابط التالي: https://github.com/yolish/multi-scene-pose-transformer.