EffoVPR: الاستخدام الفعّال للنموذج الأساسي في التعرف على المكان البصري

إن مهمة التعرف على المكان البصري (VPR) تتمثل في التنبؤ بموقع صورة استعلام من قاعدة بيانات تحتوي على صور مُعدّة بعلامات جغرافية. وقد أبرزت الدراسات الحديثة في مجال VPR الميزة الكبيرة لاستخدام النماذج الأساسية المُدرّبة مسبقًا، مثل DINOv2، في مهام VPR. ومع ذلك، تُعتبر هذه النماذج غالبًا غير كافية لمهام VPR دون تدريب دقيق إضافي على بيانات مخصصة لـ VPR. في هذه الورقة، نقدّم منهجية فعّالة لاستغلال الإمكانات الكامنة في النموذج الأساسي لمهام VPR. ونُظهر أن الميزات المستخرجة من طبقات الانتباه الذاتي (self-attention layers) يمكن أن تؤدي دور مُعدّل إعادة ترتيب قوي (re-ranker) لـ VPR، حتى في البيئة الصفرية (zero-shot). ويتفوق منهجنا على الأساليب الصفرية السابقة، ويوفر نتائج تنافسية مع العديد من الأساليب المُدرّبة تحت إشراف. ثم نُظهر أن نهجًا أحادي المرحلة يستخدم طبقات ViT الداخلية لاستخلاص الميزات العالمية يمكنه تحقيق أداءً يُعدّ من أفضل الأداءات الحالية، مع كثافة مميزة للسمات تصل إلى 128 بعدًا فقط. علاوةً على ذلك، فإن دمج ميزات النموذج الأساسي المحلية لغرض إعادة الترتيب يُعمّق هذا الفجوة في الأداء. كما تُظهر طريقة العمل لدينا مقاومة استثنائية والتعميم الجيد، مما يُسجّل أداءً جديدًا على مستوى الدولة (state-of-the-art)، مع القدرة على التعامل مع ظروف صعبة مثل الاحتجاز (الإغلاق)، والانتقال بين النهار والليل، والتغيرات الموسمية.