اكتشاف التغييرات في المشهد بشكل متين باستخدام نماذج الأساس البصري وآليات الانتباه المتقاطع

نقدم طريقة جديدة للكشف عن تغيير المشهد تعتمد على قدرات استخراج الميزات القوية لنموذج الأساس البصري DINOv2، وتدمج انتباه الصورة الكاملة للتعامل مع التحديات الرئيسية مثل تغير الإضاءة، الاختلافات الموسمية، واختلاف الزاوية البصرية. من أجل تعلم التوافق والتوافق الخاطئ بشكل فعال بين زوج من الصور لمهمة الكشف عن التغيير، نقترح ما يلي: أ) "تجميد" النواة (backbone) للاحتفاظ بعمومية ميزات الأساس الكثيفة، وب) استخدام انتباه الصورة "الكامل" (full-image) لمعالجة الاختلافات في الزاوية البصرية بين زوج الصور بشكل أفضل. نقيم نهجنا على مجموعتين رئيسيتين من البيانات المرجعية، VL-CMU-CD وPSCD، بالإضافة إلى إصداراتهما التي تحتوي على اختلافات في الزاوية البصرية. تظهر تجاربنا تحسينات كبيرة في مؤشر F1، خاصة في السيناريوهات التي تتضمن تغييرات هندسية بين أزواج الصور. تشير النتائج إلى قدرة نموذجنا على التعميم بشكل أفضل من الطرق الرائدة الحالية، مما يدل على مقاومته للتغيرات الضوئية والهندسية وكذلك قدرته على التعميم بشكل أفضل عند التعديل الدقيق لتكييفه مع بيئات جديدة. كما أن دراسات الاستبعاد المفصلة تؤكد المزيد من المساهمات لكل مكون في هيكلنا. يمكن الوصول إلى شفرتنا المصدر من الرابط التالي: https://github.com/ChadLin9596/Robust-Scene-Change-Detection.