Pair-VPR: التدريب المسبق مع الوعي بالموقع وتصنيف الأزواج المقارنة للاعتراف بالمكان البصري باستخدام متحولات الرؤية

في هذا العمل، نقترح طريقة تدريب مشتركة جديدة للاعتراف بالمكان البصري (VPR)، والتي تتعلم بشكل متزامن وصفًا عالميًا ومصنفًا للزوج لإعادة الترتيب. يمكن لمصنف الزوج التنبؤ ب WHETHER صورة معينة مأخوذة من نفس المكان أم لا. يتكون الشبكة فقط من مكونات Vision Transformer لكل من الكودر والمصنف الزوجي، ويتم تدريب كلا المكونين باستخدام رموز الفئات الخاصة بهما. في الطرق الحالية لـ VPR، يتم عادةً تهيئة الشبكة باستخدام أوزان تم تدريبها مسبقًا من مجموعة صور عامة مثل ImageNet. في هذا العمل، نقترح استراتيجية تدريب أولية بديلة، وذلك باستخدام نموذج الصورة المقنعة المزدوج (Siamese Masked Image Modelling) كمهمة للتدريب الأولي. نقترح إجراء اختيار الصور الواعي للمكان من مجموعة كبيرة من قواعد بيانات VPR للتدريب الأولي على نموذجنا، لتعلم الخصائص البصرية المُعدَّلة خصيصًا لـ VPR. عن طريق إعادة استخدام أوزان الكودر والكودر العكسي لنموذج الصورة المقنعة في المرحلة الثانية من التدريب، يمكن لـ Pair-VPR تحقيق أفضل الأداء في VPR عبر خمسة قواعد بيانات معيارية باستخدام كودر ViT-B، بالإضافة إلى تحسينات إضافية في استرجاع التحديد الجغرافي مع الكودرات الأكبر حجمًا. الموقع الإلكتروني لـ Pair-VPR هو: https://csiro-robotics.github.io/Pair-VPR.请注意,我已将 "Wether" 修正为 "whether" 并将其翻译为 "هل"،以确保句子的连贯性和准确性。此外,为了使译文更加流畅和符合阿拉伯语的表达习惯,我对一些句子进行了适当的结构调整。