إلى التكيّف السلس للنماذج المُدرَّبة مسبقًا في التعرف على الأماكن البصرية

أظهرت الدراسات الحديثة أن النماذج البصرية التي تم تدريبها مسبقًا على مهام تعلم بصري عام باستخدام بيانات واسعة النطاق يمكن أن توفر تمثيلات مميزة مفيدة لطائفة واسعة من مشكلات الإدراك البصري. ومع ذلك، لم تُبذل سوى محاولات قليلة لاستغلال النماذج الأساسية المُدرّبة مسبقًا في مهمة التعرف على المواقع البصرية (VPR). نظرًا للفرق الجوهري في أهداف التدريب والبيانات بين مهام تدريب النموذج المسبق وVPR، ما زال التحدي الأهم المتمثل في سد هذه الفجوة وتحقيق أقصى إمكانات النماذج المُدرّبة مسبقًا في مهام VPR لم يُحل بعد. ولحل هذه المشكلة، نقترح طريقة جديدة تُمكّن من التكيّف السلس للنماذج المُدرّبة مسبقًا في سياق VPR. وبشكل خاص، لاستخلاص ميزات عالمية ومحليّة تركز على المعالم البارزة التي تُميّز المواقع، نصمم طريقة تكيّف مُختلطة تحقق التكيّف العالمي والمحلي بكفاءة، حيث يتم فقط تعديل مُعدّلات خفيفة الوزن دون تعديل النموذج المُدرّب مسبقًا. بالإضافة إلى ذلك، نقترح خسارة ميزات محلية تعتمد على أقرب جيران متبادلين، لتوجيه عملية التكيّف بكفاءة، مما يضمن إنتاج ميزات محلية كثيفة مناسبة للتطابق المحلي، ويُجنب الحاجة إلى التحقق المكاني المكلّف زمنيًا أثناء إعادة الترتيب. أظهرت النتائج التجريبية أن طريقتنا تتفوّق على أحدث الطرق في المجال، مع استخدام كمية أقل من البيانات التدريبية ووقت تدريب أقصر، وتعمل بزمن استرجاع يقارب 3% فقط من الطرق ثنائية المراحل التي تعتمد على التحقق المكاني باستخدام RANSAC. وتحتلّ طريقتنا المرتبة الأولى في قائمة التصنيف الخاصة بتحدي MSLS (في وقت التقديم). تم إصدار الشيفرة المصدرية على الرابط التالي: https://github.com/Lu-Feng/SelaVPR.