HyperAIHyperAI
منذ 17 أيام

الجمع عبر النقل الأمثل للتعرف على المواقع البصرية

Sergio Izquierdo, Javier Civera
الجمع عبر النقل الأمثل للتعرف على المواقع البصرية
الملخص

تهدف مهمة التعرف على المكان البصري (VPR) إلى مطابقة صورة استعلام مع صور مرجعية من قاعدة بيانات واسعة من الصور المأخوذة من أماكن مختلفة، وذلك بالاعتماد فقط على المؤشرات البصرية. تركز أنظمة الحالة الراهنة على تجميع السمات المستخرجة من هيكل عميق (deep backbone) لتكوين وصفة عالمية لكل صورة. وفي هذا السياق، نقدّم SALAD (خوارزمية سينكيرن للسمات المجمعة محليًا)، التي تعيد صياغة عملية التعيين اللين (soft-assignment) للسمات المحلية إلى مجموعات في NetVLAD كمشكلة نقل مثالي (optimal transport). في SALAD، نأخذ بعين الاعتبار العلاقات بين السمات والمجموعات، وكذلك العلاقات العكسية بين المجموعات والسمات، كما نُدخل ما يُسمى بـ "مجموعة سلة المهملات" (dustbin cluster)، المصممة لحذف السمات التي تُعتبر غير مفيدة بشكل انتقائي، مما يعزز من جودة الوصفة النهائية. بالإضافة إلى ذلك، نستفيد من نموذج DINOv2 كهيكل أساسي (backbone) ونُعدّله بدقة (fine-tune)، مما يوفر قدرة توصيف محسّنة للسمات المحلية ويقلل بشكل كبير من زمن التدريب المطلوب. نتيجة لذلك، لا يتجاوز أسلوبنا الأحادي المرحلة (single-stage) الأداء في المعايير العامة لـ VPR مقارنة بالأساليب الأحادية السابقة، بل يتفوق أيضًا على الأساليب الثنائية المراحل التي تعتمد على إعادة ترتيب (re-ranking) بتكلفة أعلى بكثير. يمكن الوصول إلى الكود والنموذج عبر الرابط: https://github.com/serizba/salad.