تحسين تناقضي عام لشبكات سيماسيان للتعرف على المكان

تمثّل التعرف على المكان البصري مهمة صعبة في مجال الرؤية الحاسوبية، وتعتبر عنصراً أساسياً في أنظمة التحديد المكاني والتنقل القائمة على الكاميرات. في الآونة الأخيرة، حققت الشبكات العصبية التلافيفية (CNNs) نتائج متميزة وقدرة جيدة على التعميم. وعادة ما تُدرّس هذه الشبكات باستخدام أزواج أو ثلاثيات من الصور التي تُصنّف بشكل ثنائي على أنها متشابهة أو غير متشابهة. في الواقع، لا تكون درجة التشابه بين صورتين ثنائية، بل مستمرة. علاوة على ذلك، يتطلب تدريب هذه الشبكات معالجة حسابية معقدة، ويستلزم استراتيجيات مكلفة لاستخراج الأزواج والثلاثيات. نقترح دالة خسارة تباينية معممة (GCL) تعتمد على قياس التشابه بين الصور كمقياس مستمر، ونستخدمها لتدريب شبكة CNN ثنائية (siamese CNN). بالإضافة إلى ذلك، نقدّم ثلاث تقنيات لتصنيف الصور تلقائياً بعلامات تشير إلى درجة تشابهها، ونطبّقها لإعادة تسمية مجموعات بيانات MSLS وTB-Places و7Scenes. ونُظهر أن الشبكات الثنائية المدربة باستخدام دالة GCL والتصنيفات المحسّنة تتفوّق باستمرار على نظيراتها التي تعتمد على التصنيف الثنائي. كما أن نماذجنا المدربة على مجموعة MSLS تتفوّق على أحدث الطرق المُتاحة، بما في ذلك NetVLAD وNetVLAD-SARE وAP-GeM وPatch-NetVLAD، وتمتاز بقدرتها العالية على التعميم على مجموعات بيانات Pittsburgh30k وTokyo 24/7 وRobotCar Seasons v2 وExtended CMU Seasons. علاوة على ذلك، لا يتطلب تدريب شبكة ثنائية باستخدام دالة GCL استراتيجيات معقدة لاستخراج الأزواج. ونُطلق الشفرة المصدرية على الرابط: https://github.com/marialeyvallina/generalized_contrastive_loss.