NetVLAD: هندسة CNN للتعرف على الأماكن تحت الإشراف الضعيف

نواجه مشكلة التعرف على المواقع البصرية على نطاق واسع، حيث يكمن الهدف في التعرف بسرعة ودقة على موقع الصورة الاستفسارية المعطاة. نقدم الثلاثة المساهمات الرئيسية التالية. أولاً، نطور معمارية شبكة عصبية تلافيفية (CNN) يمكن تدريبها بطريقة شاملة ومباشرة لمهام التعرف على الموقع. المكون الرئيسي لهذه المعمارية هو NetVLAD، وهو طبقة VLAD معممة جديدة مستوحاة من تمثيل الصور "متجه الوصفاء المحليين المجمعة" (Vector of Locally Aggregated Descriptors) الذي يستخدم بشكل شائع في استرجاع الصور. يمكن دمج هذه الطبقة بسهولة في أي معمارية لشبكة عصبية تلافيفية وهي قابلة للتدريب عبر الانتشار العكسي (backpropagation). ثانياً، نطور إجراء تدريبي يستند إلى خسارة تصنيف ضعيفة الإشراف جديدة، لتعلم معلمات المعمارية بطريقة شاملة من صور تم تصويرها لنفس الأماكن عبر الزمن تم تنزيلها من جوجل ستريت فيو تايم ماشين (Google Street View Time Machine). وأخيراً، نظهر أن المعمارية المقترحة تتفوق بشكل كبير على تمثيلات الصور غير المتعلمة والموصوفات الجاهزة لشبكات العصب التلافيفية في معاملتين صعبتين للتعرف على الموقع، وتحسن الأداء فوق الحالة الحالية لأفضل تمثيلات الصور المتراصة في مقاييس استرجاع الصور القياسية.