AmsterTime: مجموعة بيانات معيارية للتمييز البصري للمكان في ظل تغير جوهري في المجال

نقدّم "أمسترتايم": مجموعة بيانات صعبة لتقييم القدرة على التعرف البصري على المواقع (VPR) في ظل وجود انزياح مجالي شديد. تقدّم "أمسترتايم" مجموعة مكوّنة من 2500 صورة مُنظّمة بدقة، تُمثّل نفس المشهد من منظور شارع، مطابقةً لبيانات صور أرشيفية تاريخية من مدينة أمستردام. تم التقاط أزواج الصور لنفس المكان باستخدام كاميرات مختلفة، وزوايا رؤية متنوعة، وملامح بصرية متفاوتة. على عكس مجموعات البيانات القياسية الحالية، تم جمع "أمسترتايم" مباشرةً عبر منصة تفاعلية للتنقل الجغرافي (Mapillary) باستخدام مشاركة جماعية. قمنا بتقييم مجموعة متنوعة من النماذج الأساسية، تشمل الأساليب غير القائمة على التعلّم، والأساليب المُدرّبة بقيود، والأساليب ذاتية التعلّم، مُدرّبة مسبقًا على مجموعات بيانات ذات صلة مختلفة، في مهام التحقق والبحث. أظهرت النتائج أن نموذج ResNet-101 المدرّب مسبقًا على مجموعة بيانات Landmarks حقق أعلى دقة في كلا المهمتين: 84% في مهمة التحقق، و24% في مهمة البحث. بالإضافة إلى ذلك، تم جمع مجموعة فرعية من المعالم الشهيرة في أمستردام لتقييم الميزات في مهمة تصنيف. وتم استخدام العلامات التصنيفية لاستخراج تفسيرات بصرية باستخدام تقنية Grad-CAM، بهدف فحص الصور المتشابهة التي تعلّمها النماذج العميقة في تعلّم المقاييس البصرية.