HyperAIHyperAI

Command Palette

Search for a command to run...

الاسترجاع متعدد الوسائط ذي التفاعل المتأخر الدقيق للإجابة على الأسئلة البصرية المدعومة بالاسترجاع

Weizhe Lin Jinghong Chen Jingbiao Mei Alexandru Coca Bill Byrne

الملخص

الإجابة على الأسئلة البصرية المستندة إلى المعرفة (KB-VQA) تتطلب من أنظمة الإجابة على الأسئلة البصرية استخدام المعرفة المستمدة من قواعد معرفة خارجية للإجابة على الأسئلة المرتبطة بالصورة. يُعدّ الإطار القوي المعروف بـ RA-VQA (الإجابة على الأسئلة البصرية المدعومة بالاسترجاع) حلًا فعّالًا لمعالجة مشكلة KB-VQA، حيث يقوم أولاً باسترجاع الوثائق ذات الصلة باستخدام تقنية استرجاع الفقرات الكثيفة (DPR)، ثم يستخدم هذه الوثائق للإجابة على الأسئلة. يقترح هذا البحث نموذج الاسترجاع متعدد الوسائط التفاعلي المتأخر الدقيق (FLMR)، الذي يُحسّن بشكل كبير عملية استرجاع المعرفة في إطار RA-VQA. يعالج FLMR عدّة قيود رئيسية في نموذج الاسترجاع المستخدم في RA-VQA: (1) تمثيلات الصورة المستمدة من تحويلات الصورة إلى النص قد تكون غير كاملة أو غير دقيقة، و(2) يتم حساب درجات الصلة بين الاستفسارات والوثائق باستخدام تمثيلات أحادية البعد، مما يجعلها حساسة بشكل محدود تجاه الصلة الدقيقة. يتجاوز FLMR هذه القيود من خلال الحصول على تمثيلات صورية مكملة لتمثيلات الصور الناتجة عن التحويلات من الصورة إلى النص، باستخدام نموذج رؤية تم محاذاة مع نموذج استرجاع مبني على النص من خلال شبكة محاذاة بسيطة. كما يُشغّل FLMR تمثيلات الصور والأسئلة باستخدام تمثيلات متعددة الأبعاد لالتقاط الصلة الدقيقة بين الاستفسارات والوثائق. وقد أدى FLMR إلى تحسين كبير في أداء نموذج استرجاع RA-VQA الأصلي، حيث زاد من مؤشر PRRecall@5 بنسبة تصل إلى حوالي 8٪. وأخيرًا، تم تزويد إطار RA-VQA بنموذجين متقدمين جدًا من النماذج الكبيرة متعددة الوسائط/اللغة، مما مكّن من تحقيق أداء يقارب 61٪ في مجموعات بيانات OK-VQA.


بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي
وحدات GPU جاهزة للعمل
أفضل الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp