HyperAIHyperAI

Command Palette

Search for a command to run...

استخراج الإجابات من مجموعة من الصور: نحو إجابة مرتبطة بالاسترجاع على أسئلة بصرية

Abhirama Subramanyam Penamakuri Manish Gupta Mithun Das Gupta Anand Mishra

الملخص

نُدرِس مسألة الإجابة على الأسئلة البصرية في بيئة تتطلب استخراج الإجابة من مجموعة من الصور ذات صلة وغير ذات صلة تُقدَّم كسياق. وفي مثل هذه البيئة، يجب على النموذج أولاً استرجاع الصور ذات الصلة من المجموعة، ثم الإجابة على السؤال استنادًا إلى الصور المسترجعة. نُشير إلى هذه المسألة باسم الإجابة على الأسئلة البصرية القائمة على الاسترجاع (أو RETVQA اختصارًا). تختلف RETVQA بشكل مميز وتعتبر أكثر تحدّيًا من مسألة الإجابة على الأسئلة البصرية التقليدية (VQA)، حيث يُطلب في هذه الأخيرة الإجابة على سؤال معطى باستخدام صورة واحدة ذات صلة ضمن السياق. من أجل حل مسألة RETVQA، نقترح إطارًا موحدًا يُسمى BART متعدد الصور (MI-BART)، والذي يستخدم سؤالًا وصورًا مسترجعة باستخدام مشغل الترابط الذي طوّرناه، بهدف إنتاج إجابات حرّة وسليمة من حيث التدفق. بالإضافة إلى ذلك، نقدّم أكبر مجموعة بيانات في هذا المجال، تُسمى RETVQA، والتي تتميز بالخصائص التالية: متعددة الصور ومتطلبات استرجاع للإجابة على الأسئلة البصرية، وأسئلة لا تعتمد على بيانات إضافية (metadata-independent) تُطرح على مجموعة من الصور المتنوعة، وتتوقع إجابات مختلطة تشمل إجابات تصنف حسب النمط (classification-oriented) وإجابات مُولَّدة مفتوحة (open-ended generative). يحقق الإطار المقترح دقة قدرها 76.5% ودرجة سلاسة تبلغ 79.3% على المجموعة المُقترحة RETVQA، كما يتفوّق على أحدث الطرق المُعلنة بنسبة 4.9% و11.8% على التوالي في معايير الدقة والسلسة في قسم الصور من مجموعة WebQA المتاحة للعامة.


بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي
وحدات GPU جاهزة للعمل
أفضل الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp
استخراج الإجابات من مجموعة من الصور: نحو إجابة مرتبطة بالاسترجاع على أسئلة بصرية | مستندات | HyperAI