تُحسّن التفسيرات القائمة على التقابل البصري مقاومة الذكاء الاصطناعي ودقة الفريق البشري-الذكاء الاصطناعي

يُعد تفسير توقعات الذكاء الاصطناعي (AI) أمرًا متزايد الأهمية، بل أصبح ضروريًا في العديد من التطبيقات عالية المخاطر التي يكون فيها البشر صناع القرار النهائي. في هذه الدراسة، نقترح معمليْن جديدَين لتصنيف الصور القابل للتفاسير الذاتي، يُفسران أولاً ثم يتنبأان (على عكس التفسيرات اللاحقة)، وذلك من خلال استغلال التوافق البصري بين صورة الاستعلام وعينات مرجعية. تُظهر نماذجنا تحسينًا ثابتًا (بمقدار 1 إلى 4 نقاط) على مجموعات بيانات خارج التوزيع (OOD)، في حين تؤدي أداءً أضعف قليلاً (بمقدار 1 إلى 2 نقاط) في اختبارات التوزيع الداخلي مقارنةً بنموذج ResNet-50 وClassifier k-أقرب جار (kNN). من خلال دراسة إنسانية واسعة النطاق على مجموعتي بيانات ImageNet وCUB، وُجد أن التفسيرات القائمة على التوافق أكثر فائدة للمستخدمين مقارنةً بتفسيرات kNN. كما تساعد تفسيراتنا المستخدمين على رفض قرارات الذكاء الاصطناعي الخاطئة بدقة أعلى من جميع الطرق الأخرى التي تم اختبارها. وبشكل مثير للاهتمام، نُظهر لأول مرة إمكانية تحقيق دقة متكاملة بين الإنسان والذكاء الاصطناعي (أي دقة أعلى من كل من الذكاء الاصطناعي وحده أو الإنسان وحده) في مهام تصنيف الصور الخاصة بـ ImageNet وCUB.