Command Palette
Search for a command to run...
استخراج الإجابات من مجموعة من الصور: نحو إجابة مرتبطة بالاسترجاع على أسئلة بصرية
استخراج الإجابات من مجموعة من الصور: نحو إجابة مرتبطة بالاسترجاع على أسئلة بصرية
Abhirama Subramanyam Penamakuri Manish Gupta Mithun Das Gupta Anand Mishra
الملخص
نُدرِس مسألة الإجابة على الأسئلة البصرية في بيئة تتطلب استخراج الإجابة من مجموعة من الصور ذات صلة وغير ذات صلة تُقدَّم كسياق. وفي مثل هذه البيئة، يجب على النموذج أولاً استرجاع الصور ذات الصلة من المجموعة، ثم الإجابة على السؤال استنادًا إلى الصور المسترجعة. نُشير إلى هذه المسألة باسم الإجابة على الأسئلة البصرية القائمة على الاسترجاع (أو RETVQA اختصارًا). تختلف RETVQA بشكل مميز وتعتبر أكثر تحدّيًا من مسألة الإجابة على الأسئلة البصرية التقليدية (VQA)، حيث يُطلب في هذه الأخيرة الإجابة على سؤال معطى باستخدام صورة واحدة ذات صلة ضمن السياق. من أجل حل مسألة RETVQA، نقترح إطارًا موحدًا يُسمى BART متعدد الصور (MI-BART)، والذي يستخدم سؤالًا وصورًا مسترجعة باستخدام مشغل الترابط الذي طوّرناه، بهدف إنتاج إجابات حرّة وسليمة من حيث التدفق. بالإضافة إلى ذلك، نقدّم أكبر مجموعة بيانات في هذا المجال، تُسمى RETVQA، والتي تتميز بالخصائص التالية: متعددة الصور ومتطلبات استرجاع للإجابة على الأسئلة البصرية، وأسئلة لا تعتمد على بيانات إضافية (metadata-independent) تُطرح على مجموعة من الصور المتنوعة، وتتوقع إجابات مختلطة تشمل إجابات تصنف حسب النمط (classification-oriented) وإجابات مُولَّدة مفتوحة (open-ended generative). يحقق الإطار المقترح دقة قدرها 76.5% ودرجة سلاسة تبلغ 79.3% على المجموعة المُقترحة RETVQA، كما يتفوّق على أحدث الطرق المُعلنة بنسبة 4.9% و11.8% على التوالي في معايير الدقة والسلسة في قسم الصور من مجموعة WebQA المتاحة للعامة.