التعرف على المكان على نطاق واسع بكفاءة عالية في البيانات مع الإشراف على التشابه التدريجي

تمثّل إعادة التعرف على المكان البصري (VPR) مهمة أساسية في رؤية الحاسوب للتحديد المكاني البصري. تُدرّس الطرق الحالية باستخدام أزواج من الصور التي تمثل إما نفس المكان أو لا. لا تأخذ هذه الإشارة الثنائية بعين الاعتبار العلاقات المستمرة في التشابه بين الصور التي تُلتقط من مواقع مختلفة لنفس المكان، والتي تُحدّد بطبقة مستمرة لوضعية الكاميرا. يؤدي هذا التشابه الثنائي إلى إدخال إشارة تدريب مشوّشة في تدريب خوارزميات VPR، مما يسبب توقفها في حلول محلية، ويتطلب استخدام خوارزميات مكلفة لاستخراج الأزواج الصعبة (hard mining) لضمان التقارب. مستلهمين من حقيقة أن صورتين لنفس المكان لا تشاركان بالكامل في الملامح البصرية بسبب اختلاف وضعية الكاميرا، نُطبّق استراتيجية إعادة تسمية تلقائية لإعادة تسمية مجموعات بيانات VPR. نحسب تسميات التشابه المُدرّجة (graded similarity labels) لأزواج الصور بناءً على بيانات الموضع المتاحة. علاوةً على ذلك، نُقدّم خسارة تباينية عامة جديدة (GCL) تستخدم تسميات التشابه المُدرّجة لتدريب الشبكات التباينية. نُظهر أن استخدام هذه التسميات الجديدة وخسارة GCL يمكّنان من التخلص من عملية استخراج الأزواج الصعبة، وتدريب واصفات الصور التي تُظهر أداءً أفضل في مهام VPR باستخدام بحث الجيران الأقرب، مما يُحقّق نتائج متفوّقة أو مماثلة للطرق التي تعتمد على خوارزميات مكلفة لاستخراج الأزواج الصعبة وتقنيات إعادة الترتيب (re-ranking). الكود والنماذج متاحة على: https://github.com/marialeyvallina/generalized_contrastive_loss