GSV-Cities: نحو التعرف المناسب المُراقب على المواقع البصرية

تهدف هذه الورقة إلى دراسة التعلم الممثّل للتمييز البصري للمواقع على نطاق واسع، والذي يتضمن تحديد الموقع المُمثَّل في صورة استعلام من خلال الرجوع إلى قاعدة بيانات من الصور المرجعية. يُعد هذا المهمة صعبة بسبب التغيرات البيئية الواسعة النطاق التي قد تحدث بمرور الوقت (مثل الطقس، الإضاءة، الفصول، حركة المرور، والعوائق). ويُواجه التقدم الحالي صعوبات حالية بسبب نقص قواعد البيانات الكبيرة التي تحتوي على حقائق أرضية دقيقة. ولحل هذه التحديات، نقدّم مجموعة بيانات صور جديدة تُدعى GSV-Cities، التي تُوفّر أوسع تغطية جغرافية حتى الآن مع حقائق أرضية دقيقة للغاية، وتغطي أكثر من 40 مدينة في جميع قارات العالم على مدى فترة زمنية تمتد لـ 14 عامًا. وبعدها، نستكشف الإمكانات الكاملة للتطورات الحديثة في التعلم العميق القائم على المقاييس لتدريب الشبكات بشكل خاص لتمييز المواقع، ونقيّم كيف تؤثر دوال الخسارة المختلفة على الأداء. بالإضافة إلى ذلك، نُظهر أن أداء الطرق الحالية يتحسّن بشكل كبير عند تدريبها على مجموعة بيانات GSV-Cities. وأخيرًا، نقدّم طبقة تجميع كاملة بالشبكة التلافيفية (fully convolutional aggregation layer) جديدة تتفوّق على التقنيات الحالية، بما في ذلك GeM وNetVLAD وCosPlace، ونُسجّل حالة جديدة من الأداء القياسي على معايير كبيرة الحجم مثل Pittsburgh وMapillary-SLS وSPED وNordland. تُتاح مجموعة البيانات والكود لأغراض البحث عبر الرابط التالي: https://github.com/amaralibey/gsv-cities.