Explanatory Visual Question Answering
توضيح الإجابة البصرية (EVQA) هو مهمة متقدمة في مجال الرؤية الحاسوبية تهدف إلى الإجابة على الأسئلة البصرية وإنشاء شروحات متعددة الوسائط للكشف عن عملية الاستدلال. هذه المهمة لا تتطلب فقط فهمًا دقيقًا لمحتوى الصورة، بل تحتاج أيضًا إلى دمج العناصر اللغوية والبصرية للتعبير بشكل شامل عن منطق الاستدلال، مما يعزز شفافية وقابلية تفسير النموذج. ولها قيمة تطبيقية كبيرة.