إطار عمل توليد البيانات UDK-VQA
إطار عمل UDK-VQA هو إطار عمل لتوليد البيانات تم اقتراحه بشكل مشترك من قبل مختبر شنغهاي للذكاء الاصطناعي ومعهد بكين للتكنولوجيا وجامعة تشجيانغ وجامعة هونج كونج في عام 2024. ويهدف إلى مساعدة النماذج متعددة الوسائط الكبيرة في تقديم ملاحظات حول المعلومات في الوقت الفعلي. نتائج الورقة ذات الصلة هيSearchLVLMs: إطار عمل جاهز للاستخدام لتعزيز نماذج الرؤية واللغة الكبيرة من خلال البحث في أحدث المعارف المتاحة على الإنترنت".
الغرض الأساسي من إطار عمل UDK-VQA هو تعزيز نماذج الرؤية واللغة واسعة النطاق (LVLMs) الحالية لتمكينها من التعامل مع الإجابة على الأسئلة المرئية (VQA) باستخدام المعرفة الحديثة. نظرًا لأن نماذج الرؤية واللغة الكبيرة لا يمكن تحديثها بشكل متكرر بما يكفي لدمج أحدث المعارف، فإنها تفشل في كثير من الحالات عند التعامل مع السيناريوهات التي تتطلب معلومات جديدة. على سبيل المثال، إذا تم إصدار LVLM في يناير 2024، فلن يكون لديه أي فكرة عن هوية فنان الأغنية الرئيسية لفيلم تم إصداره في أبريل 2024.
ولمعالجة هذه المشكلة، نقترح إطار عمل جاهز للاستخدام لتزويد LVLMs بأحدث المعارف أثناء الاستدلال عبر البحث على الإنترنت، وهو ما يسمى بتوليد زيادة الإنترنت (IAG). يقوم إطار عمل UDK-VQA بتدريب نموذج تصفية هرمي للعثور بفعالية وكفاءة على المحتوى الأكثر فائدة من صفحات الويب التي يتم إرجاعها بواسطة محركات البحث لتحفيز LVLMs بأحدث المعرفة.
بالإضافة إلى ذلك، من أجل تدريب النموذج وتقييم أداء الإطار، اقترح الباحثون عملية لإنشاء عينات VQA متعلقة بالأخبار تلقائيًا لبناء مجموعة بيانات، والتي تسمى UDK-VQA.