الشفافية بالتصميم: إغلاق الفجوة بين الأداء والقابلية للتفسير في الاستدلال البصري

الإجابة على الأسئلة البصرية تتطلب الاستدلال من الدرجة العليا حول الصورة، وهي قدرة أساسية تحتاجها أنظمة الآلات لتنفيذ التوجيهات المعقدة. حديثًا، أثبتت الشبكات الموديولية أنها إطار فعال لأداء مهام الاستدلال البصري. ومع ذلك، كانت أداء هذه الشبكات على مقاييس الاستدلال البصري المعقدة غير كافٍ. النهج الحالية الرائدة لا تقدم آلية فعالة لفهم عملية الاستدلال. في هذا البحث، نغلق الفجوة في الأداء بين النماذج القابلة للتفسير والطرق الرائدة في مجال الاستدلال البصري. نقترح مجموعة من العناصر الأولية للاستدلال البصري، والتي عند تركيبها تظهر كنموذج قادر على أداء مهام استدلال معقدة بطريقة قابلة للتفسير بشكل صريح. دقة وقابلية التفسير للعناصر الأولية تمكن من قدرة غير مسبوقة على تشخيص نقاط القوة والضعف للنموذج الناتج. بشكل حاسم، نظهر أن هذه العناصر الأولية ذات أداء عالي، حيث حققت دقة رائدة تبلغ 99.1٪ على مجموعة بيانات CLEVR (CLEVR dataset). كما نظهر أن نموذجنا قادر على تعلم تمثيلات معممة بشكل فعال عند توفير كمية صغيرة من البيانات تحتوي على خصائص أشياء جديدة. باستخدام مهمة التعميم CoGenT (CoGenT generalization task)، نظهر تحسنًا يزيد عن 20 نقطة مئوية على الحالة الحالية للتقنية.