Patch-NetVLAD: دمج متعدد المقياس للوسائط المحلية-الشاملة للتعرف على المكان

تمثّل التعرف على المكان البصري مهمة صعبة في مجال الروبوتات والأنظمة المستقلة، والتي يجب أن تتعامل مع التحديين الرئيسيين المتمثلين في التغير في المظهر والتغير في زاوية الرؤية في عالم دائم التغير. تقدّم هذه الورقة نموذج Patch-NetVLAD، الذي يقدّم صيغة مبتكرة لدمج مزايا منهجيّي المُميّزات المحلية والعالمية من خلال استخلاص ميزات على مستوى اللوحة (patch-level) من باقيات (residuals) NetVLAD. على عكس النمط الثابت للجوار المكاني المُطبّق في الميزات المحلية التقليدية المستندة إلى نقاط المفتاح، يتيح لنا هذا النهج تجميع ومقارنة ميزات محلية مُتعلّمة عميقًا وتمّ تعريفها على شبكة فضاء الميزات. كما نقدّم أيضًا دمجًا متعدد المقاييس لميزات اللوحات التي تمتلك مقاييس مكملة (أي أحجام لوحات مختلفة) من خلال فضاء ميزات متكامل، ونُظهر أن الميزات المدمجة تكون شديدة المقاومة للتغيرات في الظروف (مثل الفصول، الهياكل، والإضاءة) والتغيرات في زاوية الرؤية (الانزلاق والدوران). يتفوّق Patch-NetVLAD على كل من المنهجيات القائمة على الميزات العالمية والمحليّة، مع استهلاك حسابي مماثل، ويسجّل نتائج متميزة في التعرف البصري على المكان على مجموعة متنوعة من مجموعات البيانات الواقعية الصعبة، بما في ذلك الفوز بمسابقة التعرف البصري على المكان من فيسبوك مابيلياري (Facebook Mapillary Visual Place Recognition Challenge) في مؤتمر ECCV2020. كما يُعدّ نموذج Patch-NetVLAD قابلاً للتكيف مع متطلبات المستخدم، حيث يُقدّم نسخة مُحسّنة من حيث السرعة تعمل بأكثر من مرّة واحدة أسرع من أحدث النماذج الحالية. وبدمج الأداء المتفوّق مع كفاءة حسابية محسّنة ضمن إطار قابِل للتخصيص، يُعدّ Patch-NetVLAD مناسبًا جدًا لتعزيز قدرات التعرف على المكان المستقلة، فضلًا عن تحسين الأداء العام لأنظمة SLAM.