الانتباه المُصحَّح بالسببية للتعرف البصري المُتحيِّز السياقي
{Thomas H. Li Ge Li Jingjia Huang Ruyang Liu}

الملخص
الانتباه البصري لا يُعد دائمًا وسيلة لالتقاط التمثيل الكافي للجسم المطلوب لتحقيق تنبؤات قوية. غالبًا ما تُبرز وحدات الانتباه ليس فقط الجسم المستهدف، بل أيضًا السياق الشائع الذي يُعتقد أنه مفيد أثناء التدريب. وتنبع المشكلة من التأثير المُربك للسياق، الذي يؤدي إلى علاقات سببية خاطئة بين الأجسام والتنبؤات، وتتفاقم هذه المشكلة نتيجة استخدام الانتباه البصري. في هذا البحث، نقترح وحدة انتباه جديدة تُسمى "الانتباه المزدوج التدخلية" (Interventional Dual Attention - IDA) لتعلم ميزات الجسم السببية التي تكون مقاومة للتحيّز الناتج عن السياق، وذلك في مجال التعرف البصري. وبشكل خاص، تعتمد IDA على طبقتين من الانتباه مع تدخل متعدد للعينات، مما يُعوّض الانتباه عن تأثير السياق المُربك. وتجدر الإشارة إلى أن طريقة العمل هذه لا تعتمد على نموذج معين، وبالتالي يمكن تطبيقها على عدة هيكل أساسي (backbones). وقد أظهرت التجارب الواسعة تحسنًا ملحوظًا في التصنيف والكشف، مع تقليل في التكلفة الحسابية. وبشكل خاص، تحقّقنا أفضل نتائج مُحققة في التصنيف متعدد التسميات على مجموعتي البيانات MS-COCO وPASCAL-VOC.
المعايير القياسية
| معيار قياسي | المنهجية | المقاييس |
|---|---|---|
| multi-label-classification-on-ms-coco | IDA-SwinL | mAP: 90.3 |
| multi-label-classification-on-ms-coco | IDA-R101 | mAP: 86.3 |
| multi-label-image-classification-on-mscoco | IDA-R101(H) 576 | mAP: 86.3 |
| multi-label-image-classification-on-mscoco | IDA-SwinL(H) 384 | mAP: 90.3 |
| multi-label-image-classification-on-mscoco | IDA-R101(H) | mAP: 84.8 |
بناء الذكاء الاصطناعي بالذكاء الاصطناعي
من الفكرة إلى الإطلاق — عجّل تطوير الذكاء الاصطناعي الخاص بك من خلال البرمجة المشتركة المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.