Grad-CAM: التوضيحات البصرية من الشبكات العميقة عبر التوطين القائم على التدرج

نقترح تقنية لإنتاج "التفسيرات البصرية" للقرارات الصادرة عن فئة واسعة من نماذج الشبكات العصبية الم convoled (CNN)، مما يجعلها أكثر شفافية. نهجنا - خريطة التنشيط المرتبطة بالميل (Grad-CAM) - يستخدم ميل أي مفهوم هدف، المتدفق إلى الطبقة التلافيفية النهائية لإنتاج خريطة تحديد موقع خشنة تسلط الضوء على المناطق الهامة في الصورة لتنبؤ المفهوم. يمكن تطبيق Grad-CAM على مجموعة متنوعة واسعة من عائلات نماذج CNN: (1) شبكات CNN ذات الطبقات المتصلة بالكامل، (2) شبكات CNN المستخدمة للخرج المنظم، (3) شبكات CNN المستخدمة في المهام ذات المدخلات متعددة الأوضاع أو التعلم التعزيزي، دون أي تغييرات في البنية أو إعادة تدريب. نجمع بين Grad-CAM والتصورات الدقيقة لخلق تصور بصري ذو دقة عالية ومميز للصنف ونطبقه على نماذج تصنيف الصور الجاهزة وأمثلة التسمية والرد على الأسئلة البصرية (VQA)، بما في ذلك بنى ResNet. في سياق نماذج تصنيف الصور، توفر تصوراتنا (أ) رؤى حول أنماط الفشل لديها، (ب) صلابة ضد الصور المعادية، (ج) أداء أفضل من الطرق السابقة في تحديد الموقع، (د) إخلاصًا أكبر للنموذج الأساسي و(هـ) مساعدةً في تحقيق التعميم من خلال تحديد التحيز في مجموعة البيانات. بالنسبة للتسمية وVQA، نوضح أن حتى النماذج التي لا تعتمد على الانتباه يمكنها تحديد المدخلات. نبتكر طريقة لتحديد الخلايا العصبية الهامة عبر Grad-CAM ونجمعها بأسماء الخلايا العصبية لتوفير تفسيرات نصية لقرارات النموذج. أخيرًا، نصمم ونقوم بدراسات بشرية لقياس ما إذا كان Grad-CAM يساعد المستخدمين في بناء الثقة المناسبة في التنبؤات من النماذج ويظهر أن Grad-CAM يساعد المستخدمين غير المحترفين بنجاح في تمييز "نموذج قوي" عن "نموذج ضعيف" حتى عندما يصدر كلاهما تنبؤات متطابقة. رمز البرمجيات الخاص بنا متاح على https://github.com/ramprs/grad-cam/، بالإضافة إلى عرض توضيحي على http://gradcam.cloudcv.org، وفيديو على youtu.be/COjUB9Izk6E.请注意,这里有一些科技术语的翻译:- "Convolutional Neural Networks" 翻译为 "الشبكات العصبية المتلافيفة"(CNN)- "Gradient-weighted Class Activation Mapping" 翻译为 "خريطة التنشيط المرتبطة بالميل"(Grad-CAM)- "ResNet-based architectures" 翻译为 "بنى ResNet"- "Visual Question Answering" 翻译为 "الرد على الأسئلة البصرية"(VQA)这些术语在阿拉伯语中可能有不同的表达方式,但上述翻译是较为通用且专业的。