بروفيت: توجيه النماذج اللغوية الكبيرة باستخدام خوارزميات إجابة مكملة لاستجابات الأسئلة البصرية القائمة على المعرفة

الإجابة البصرية القائمة على المعرفة (VQA) تتطلب معرفة خارجية تتجاوز الصورة للاجابة عن السؤال. في الدراسات المبكرة، تم استرجاع المعرفة المطلوبة من قواعد معرفة صريحة (KBs)، مما يؤدي غالبًا إلى إدخال معلومات غير ذات صلة بالسؤال، وبالتالي يحد من أداء النماذج. في المنهجيات الحديثة، تم اللجوء إلى استخدام نموذج لغة كبير (LLM) قوي كمحرك معرفة ضمني لاسترجاع المعرفة الضرورية للإجابة. وعلى الرغم من النتائج المثيرة التي حققتها هذه الطرق، فإننا نرى أن هذه الأساليب لم تستغل بالكامل القدرة الحقيقية للنموذج الكبير المُعَمَّى (العمي) (blind LLM)، نظرًا لأن المدخل النصي المقدَّم لا يكفي لوصف المعلومات البصرية المطلوبة للإجابة عن السؤال. في هذه الورقة، نقدّم "بروفيت" (Prophet) – إطارًا مفاهيميًا بسيطًا ومرنًا وعامًا، مصممًا لتنبيه نموذج اللغة الكبير باستخدام استراتيجيات إجابة (answer heuristics) للإجابة البصرية القائمة على المعرفة. بشكل خاص، نحن نُدرّب أولًا نموذج VQA بسيطًا على مجموعة بيانات محددة لـ VQA القائمة على المعرفة دون استخدام معرفة خارجية. ثم نستخرج نوعين من استراتيجيات الإجابة المكملة من نموذج VQA: مرشحات الإجابة (answer candidates) وأمثلة واعية بالإجابة (answer-aware examples). تُشَكَّل هاتان النوعان من استراتيجيات الإجابة معًا في مدخل منسق (formatted prompt) لتسهيل فهم النموذج الكبير للغة لكل من الصورة والسؤال، مما يؤدي إلى إنتاج إجابة أكثر دقة. وباستخدام أحدث نموذج لغة كبير (GPT-3)، يتفوق Prophet بشكل كبير على الطرق الحديثة المتطورة في أربع مجموعات بيانات صعبة لـ VQA القائمة على المعرفة. يتميز Prophet بالعامة، حيث يمكن تطبيقه مع مزيج من نماذج VQA المختلفة (سواء كانت تمييزية أو توليدية) ونماذج LLM المختلفة (سواء كانت تجارية أو مفتوحة المصدر). علاوةً على ذلك، يمكن دمج Prophet مع النماذج الكبيرة متعددة الوسائط الحديثة في مراحل مختلفة، وهو ما يُسمى بـ "بروفيت بلس بلس" (Prophet++)، مما يُعزز القدرات بشكل إضافي في مهام VQA القائمة على المعرفة.