HyperAIHyperAI
منذ 16 أيام

الاسترجاع متعدد الوسائط ذي التفاعل المتأخر الدقيق للإجابة على الأسئلة البصرية المدعومة بالاسترجاع

Weizhe Lin, Jinghong Chen, Jingbiao Mei, Alexandru Coca, Bill Byrne
الاسترجاع متعدد الوسائط ذي التفاعل المتأخر الدقيق للإجابة على الأسئلة البصرية المدعومة بالاسترجاع
الملخص

الإجابة على الأسئلة البصرية المستندة إلى المعرفة (KB-VQA) تتطلب من أنظمة الإجابة على الأسئلة البصرية استخدام المعرفة المستمدة من قواعد معرفة خارجية للإجابة على الأسئلة المرتبطة بالصورة. يُعدّ الإطار القوي المعروف بـ RA-VQA (الإجابة على الأسئلة البصرية المدعومة بالاسترجاع) حلًا فعّالًا لمعالجة مشكلة KB-VQA، حيث يقوم أولاً باسترجاع الوثائق ذات الصلة باستخدام تقنية استرجاع الفقرات الكثيفة (DPR)، ثم يستخدم هذه الوثائق للإجابة على الأسئلة. يقترح هذا البحث نموذج الاسترجاع متعدد الوسائط التفاعلي المتأخر الدقيق (FLMR)، الذي يُحسّن بشكل كبير عملية استرجاع المعرفة في إطار RA-VQA. يعالج FLMR عدّة قيود رئيسية في نموذج الاسترجاع المستخدم في RA-VQA: (1) تمثيلات الصورة المستمدة من تحويلات الصورة إلى النص قد تكون غير كاملة أو غير دقيقة، و(2) يتم حساب درجات الصلة بين الاستفسارات والوثائق باستخدام تمثيلات أحادية البعد، مما يجعلها حساسة بشكل محدود تجاه الصلة الدقيقة. يتجاوز FLMR هذه القيود من خلال الحصول على تمثيلات صورية مكملة لتمثيلات الصور الناتجة عن التحويلات من الصورة إلى النص، باستخدام نموذج رؤية تم محاذاة مع نموذج استرجاع مبني على النص من خلال شبكة محاذاة بسيطة. كما يُشغّل FLMR تمثيلات الصور والأسئلة باستخدام تمثيلات متعددة الأبعاد لالتقاط الصلة الدقيقة بين الاستفسارات والوثائق. وقد أدى FLMR إلى تحسين كبير في أداء نموذج استرجاع RA-VQA الأصلي، حيث زاد من مؤشر PRRecall@5 بنسبة تصل إلى حوالي 8٪. وأخيرًا، تم تزويد إطار RA-VQA بنموذجين متقدمين جدًا من النماذج الكبيرة متعددة الوسائط/اللغة، مما مكّن من تحقيق أداء يقارب 61٪ في مجموعات بيانات OK-VQA.

الاسترجاع متعدد الوسائط ذي التفاعل المتأخر الدقيق للإجابة على الأسئلة البصرية المدعومة بالاسترجاع | أحدث الأوراق البحثية | HyperAI