AtLoc: التوجيه بالانتباه لتحديد موقع الكاميرا

أحرز التعلم العميق نتائج مبهرة في تحديد موقع الكاميرا، لكن التقنيات الحالية التي تعتمد على صورة واحدة تعاني عادة من ضعف المقاومة، مما يؤدي إلى وجود قيم شاذة كبيرة. وتم التصدي إلى حد ما لهذه المشكلة من خلال النهج التسلسلي (الذي يستخدم صورًا متعددة) أو النهج القائم على القيود الهندسية، والتي يمكنها تعلم استبعاد الكائنات الديناميكية والظروف الإضاءة لتحقيق أداء أفضل. في هذا العمل، نُظهر أن الانتباه يمكن استخدامه لفرض على الشبكة التركيز على كائنات وسمات أكثر مقاومةً من الناحية الهندسية، مما يُحقق أداءً متقدمًا على مستوى الحد الأقصى في المعايير الشائعة، حتى عند استخدام صورة واحدة فقط كمدخل. وتم تقديم أدلة تجريبية واسعة من خلال مجموعات بيانات عامة داخلية وخارجية. ومن خلال تصور خرائط الحساسية، نُظهر كيف تتعلم الشبكة استبعاد الكائنات الديناميكية، مما يُنتج أداءً متفوقًا في تقدير موضع الكاميرا عالميًا. وستكون الشفرة المصدرية متاحة على الرابط التالي: https://github.com/BingCS/AtLoc.