الاستجابة المُحسَّنة بالاسترجاع للأسئلة البصرية باستخدام المعرفة الخارجية

الإجابة على الأسئلة البصرية باستخدام المعرفة الخارجية (OK-VQA) هي مهمة صعبة في مجال الإجابة على الأسئلة البصرية، وتتطلب استرجاع معرفة خارجية للإجابة عن أسئلة تتعلق بالصور. تستخدم الأنظمة الحديثة لـ OK-VQA تقنية استرجاع الفقرات الكثيفة (DPR) لاسترجاع الوثائق من قواعد معرفة خارجية، مثل ويكيبيديا، لكن استخدام DPR المدرب بشكل منفصل عن عملية توليد الإجابة يُعدّ عائقًا محتملًا أمام الأداء العام للنظام. بدلاً من ذلك، نقترح نموذجًا تدريبيًا متكاملًا يدمج DPR القابل للتمايز مع عملية توليد الإجابة، مما يسمح بتدريب النظام بطريقة نهائية (end-to-end). تُظهر تجاربنا أن نموذجنا يتفوق على الأنظمة الحديثة لـ OK-VQA التي تعتمد على DPR القوي في استرجاع المعلومات. كما قمنا بتطوير مقاييس تشخيصية جديدة لتحليل التفاعل بين عملية الاسترجاع وعملية التوليد. إن القدرة القوية على الاسترجاع في نموذجنا تقلل بشكل كبير من عدد الوثائق المطلوبة استرجاعها أثناء التدريب، مما يحقق فوائد كبيرة في جودة الإجابات وكمية الحوسبة المطلوبة للتدريب.