إطار عمل SearchLVLMs
إطار عمل SearchLVLMs هو حل جاهز للاستخدام تم اقتراحه بشكل مشترك من قبل مختبر الذكاء الاصطناعي في شنغهاي (OpenGVLab)، ومعهد بكين للتكنولوجيا، وجامعة تشجيانغ، وجامعة هونج كونج في عام 2024، والذي يهدف إلى تعزيز قدرة نماذج اللغة المرئية واسعة النطاق (LVLMs) الحالية على التعامل مع الإجابة على الأسئلة المرئية (VQA) حول أحدث المعرفة. نتائج الورقة ذات الصلة هيSearchLVLMs: إطار عمل جاهز للاستخدام لتعزيز نماذج الرؤية واللغة الكبيرة من خلال البحث في أحدث المعارف المتاحة على الإنترنت".
إن نماذج الرؤية واللغة واسعة النطاق (مثل عائلة LLaVA) تعمل بشكل ضعيف في العديد من المواقف لأنها لا يمكن تحديثها بشكل متكرر ولا تدرك أحدث المعارف (على سبيل المثال، مغني أغنية الموضوع في فيلم جديد). يعمل إطار عمل SearchLVLMs على تحسين هذه المشكلة من خلال توفير تحسينات البحث على الإنترنت في مرحلة الاستدلال لمساعدة LVLMs في اكتساب أحدث المعارف.
يتكون إطار عمل SearchLVLMs بشكل أساسي من ثلاثة أجزاء: إنشاء الاستعلام، واستدعاء محرك البحث، والتصفية الهرمية. أثناء مرحلة إنشاء الاستعلام، يحتاج الإطار إلى فهم السؤال والصورة بشكل كامل لترجمتها إلى استعلام نصي مناسب لمحركات البحث. أثناء مرحلة الاتصال بمحرك البحث، يمكن للمستخدمين تحديد فئة محرك البحث للاتصال بها استنادًا إلى نوع السؤال. وأخيرًا، في مرحلة التصفية الهرمية، يقوم الإطار بتدريب نموذج للعثور بشكل فعال على المحتوى الأكثر إفادة من صفحات الويب التي يتم إرجاعها بواسطة محرك البحث.
تظهر النتائج التجريبية أن إطار عمل SearchLVLMs يمكنه تحسين أداء LVLMs بشكل كبير في الإجابة على الأسئلة التي تتطلب أحدث المعرفة، مع معدل دقة يتجاوز GPT-4V بحوالي 25%. يوفر إطار عمل SearchLVLMs المقترح حلاً جاهزًا للتشغيل الفوري للنماذج متعددة الوسائط الكبيرة، مما يتيح لها دمج أحدث المعارف المتاحة عبر الإنترنت بسلاسة وتحسين قدرة النموذج على تقديم ملاحظات حول المعلومات في الوقت الفعلي.