إعادة التفكير في التحديد الجغرافي البصري للتطبيقات على نطاق واسع

التحديد المكاني البصري (VG) هو مهمة تقدير المكان الذي تم فيه التقاط صورة معينة من خلال مقارنتها بقاعدة بيانات ضخمة من الصور التي تُعرف مواقعها بدقة. ولدراسة أداء التقنيات الحالية في تطبيق عملي على مستوى المدينة، قمنا ببناء مجموعة بيانات جديدة تُسمى "سان فرانسيسكو إكس ترا لارج" (San Francisco eXtra Large)، والتي تغطي مدينة بأكملها وتوفر طيفًا واسعًا من الحالات الصعبة، بحجم يفوق 30 مرة المجموعة الأكبر سابقًا في مجال التحديد المكاني البصري. ووجدنا أن الطرق الحالية تفشل في التوسع لمعالجة مثل هذه المجموعات الضخمة، لذا صممنا تقنية تدريب جديدة قابلة للتوسع بشكل كبير، تُسمى "كوس بلاس" (CosPlace)، والتي تُعيد صياغة عملية التدريب كمشكلة تصنيف، مما يتجنب الحاجة إلى عمليات استخراج مكلفة تُستخدم غالبًا في التعلم التبايني (contrastive learning). وحققنا أداءً متفوقًا على مستوى الحالات المتنوعة، ووجدنا أن "كوس بلاس" تتمتع بثبات عالٍ أمام التغيرات الكبيرة في المجال (domain shifts). علاوةً على ذلك، أظهرنا أن "كوس بلاس" تتطلب، مقارنةً بالحالة المتطورة السابقة، حوالي 80٪ أقل من ذاكرة وحدة المعالجة الرسومية (GPU) أثناء التدريب، وتحقق نتائج أفضل باستخدام متجهات وصفية بحجم 8 أضعاف أصغر، مما يفتح المجال أمام تطبيقات التحديد المكاني البصري على مستوى المدينة في العالم الحقيقي. تُتاح مجموعة البيانات، والكود البرمجي، والنموذج المدرب لأغراض البحث عبر الرابط: https://github.com/gmberton/CosPlace.