EigenPlaces: تدريب نماذج مقاومة للزاوية المرئية للتعرف على المكان البصري

تمثيل المكان البصري هو مهمة تهدف إلى التنبؤ بموقع صورة معينة (تُسمى الاستعلام) بناءً فقط على سماتها البصرية. وعادةً ما يتم ذلك من خلال استرجاع الصور، حيث يتم مطابقة الاستعلام مع الصور الأكثر تشابهًا من قاعدة بيانات ضخمة تحتوي على صور مُوسومَة جغرافيًا، باستخدام وصفات عالمية تم تعلّمها. يُعد التحدي الرئيسي في هذه المهمة هو التعرف على أماكن تم تصويرها من زوايا مختلفة. وللتغلب على هذا التحدي، نقترح طريقة جديدة تُسمى "إينيغ بليسز" (EigenPlaces)، تُدرّب فيها الشبكة العصبية على صور مُصوّرة من زوايا مختلفة، بحيث تُدمج مقاومة التغير في الزاوية ضمن الوصفات العالمية المُتعلّمة. والفكر الأساسي وراء هذه الطريقة هو تجميع بيانات التدريب بحيث يتم عرض النموذج بشكل صريح على زوايا متعددة لنفس النقاط الجذبية. ويتم اختيار هذه النقاط الجذبية دون الحاجة إلى إشراف إضافي. ثم نقدّم تجارب على أشمل مجموعة من مجموعات البيانات المُستخدمة في الأدبيات العلمية، ونجد أن "إينيغ بليسز" قادرة على التفوق على أحدث النماذج السابقة في معظم مجموعات البيانات، مع استهلاك 60٪ أقل من ذاكرة وحدة معالجة الرسومات (GPU) أثناء التدريب، واستخدام وصفات أصغر بنسبة 50٪. يُمكن الوصول إلى الشفرة النصية والنماذج المُدرّبة لـ "إينيغ بليسز" عبر الرابط: {\small{\url{https://github.com/gmberton/EigenPlaces}}}، بينما يمكن حساب النتائج بالنسبة لأي نموذج مرجعي آخر باستخدام البيئة البرمجية المتوفرة عبر الرابط: {\small{\url{https://github.com/gmberton/auto_VPR}}}.