الانتباه المُصحَّح بالسببية للتعرف البصري المُتحيِّز السياقي

الانتباه البصري لا يُعد دائمًا وسيلة لالتقاط التمثيل الكافي للجسم المطلوب لتحقيق تنبؤات قوية. غالبًا ما تُبرز وحدات الانتباه ليس فقط الجسم المستهدف، بل أيضًا السياق الشائع الذي يُعتقد أنه مفيد أثناء التدريب. وتنبع المشكلة من التأثير المُربك للسياق، الذي يؤدي إلى علاقات سببية خاطئة بين الأجسام والتنبؤات، وتتفاقم هذه المشكلة نتيجة استخدام الانتباه البصري. في هذا البحث، نقترح وحدة انتباه جديدة تُسمى "الانتباه المزدوج التدخلية" (Interventional Dual Attention - IDA) لتعلم ميزات الجسم السببية التي تكون مقاومة للتحيّز الناتج عن السياق، وذلك في مجال التعرف البصري. وبشكل خاص، تعتمد IDA على طبقتين من الانتباه مع تدخل متعدد للعينات، مما يُعوّض الانتباه عن تأثير السياق المُربك. وتجدر الإشارة إلى أن طريقة العمل هذه لا تعتمد على نموذج معين، وبالتالي يمكن تطبيقها على عدة هيكل أساسي (backbones). وقد أظهرت التجارب الواسعة تحسنًا ملحوظًا في التصنيف والكشف، مع تقليل في التكلفة الحسابية. وبشكل خاص، تحقّقنا أفضل نتائج مُحققة في التصنيف متعدد التسميات على مجموعتي البيانات MS-COCO وPASCAL-VOC.