إعادة النظر في أي شيء: التعرف على المواقع البصرية من خلال استرجاع قطع الصور

التعرف بدقة على مكان مُعاد زيارته أمر حاسم للوكلاء الماديين لتحديد موقعهم والتنقل. يتطلب هذا أن تكون التمثيلات البصرية متميزة، رغم التغيرات القوية في زاوية رؤية الكاميرا ومظهر المشهد. ترمّز خطوط الأنابيب الحالية للتعرف على الأماكن البصرية "الصورة الكاملة" وبحث عن التطابقات. يشكل هذا تحديًا أساسيًا في مطابقة صورتين لنفس المكان تم التقاطهما من زوايا رؤية مختلفة للكاميرا: "تشابه ما يتقاطع يمكن أن يُهيمن عليه اختلاف ما لا يتقاطع". نعالج هذا التحدي بترميز وبحث عن "أقسام الصورة" بدلاً من الصور الكاملة. نقترح استخدام تقسيم الصور المفتوح لتفكيك الصورة إلى كيانات "ذات معنى" (أي، الأشياء والمادة). هذا يمكّننا من إنشاء تمثيل صوري جديد كمجموعة من الرسوم البيانية الجزئية المتداخلة التي تربط قسمًا بقسميه المجاورين، والتي أطلقنا عليها اسم SuperSegment. بالإضافة إلى ذلك، لترميز هذه SuperSegments بكفاءة في تمثيلات متجهية مضغوطة، نقترح تمثيلًا عاملًا جديدًا لتجميع الخصائص. نوضح أن استرجاع هذه التمثيلات الجزئية يؤدي إلى زيادة كبيرة في نسبة الاستدعاء للتعرف أكثر مما هو الحال عند استخدام الطريقة النموذجية لاسترجاع الصورة الكاملة. طريقة SegVLAD المستندة إلى الأقسام الخاصة بنا تحدد مستوى أداء جديد في التعرف على الأماكن على مجموعة متنوعة من مجموعات البيانات القياسية، بينما يمكن تطبيقها على كل من مشفرات الصور العامة والمشفرات المتخصصة بالمهام. وأخيراً، نثبت إمكانية طريقتنا للتعامل مع "إعادة زيارة أي شيء" بتقييم طريقتنا في مهمة استرجاع نسخة كائن، مما يربط بين مجالَي البحث المختلفين: التعرف البصري على الأماكن والتنقل نحو هدف الكائن، عبر هدفهم المشترك المتمثل في التعرف على الكائنات الهدف الخاصة بموقع معين. مصدر الرمز: https://github.com/AnyLoc/Revisit-Anything.