PromptCap: كتابة وصف صور موجهة بالـ Prompt واعية بالمهام

الإجابة على الأسئلة البصرية القائمة على المعرفة (VQA) تتطلب أسئلة تتطلب معرفة عالمية تتجاوز ما هو موضح في الصورة للحصول على إجابة صحيحة. تُعد النماذج اللغوية الكبيرة (LMs) مثل GPT-3 مفيدة بشكل خاص في هذا المهمة بفضل قدرتها القوية على استرجاع المعرفة والاستدلال. لتمكين النموذج اللغوي من فهم الصور، استخدمت الدراسات السابقة نموذجًا لوصف الصور (captioning) لتحويل الصور إلى نصوص. ومع ذلك، عند تلخيص صورة في جملة وصف واحدة، غالبًا ما تكون الكيانات البصرية التي يجب وصفها غير محددة بدقة. وغالبًا ما تفوت العناوين العامة للصور التفاصيل البصرية الأساسية التي يحتاجها النموذج اللغوي للإجابة بشكل صحيح على الأسئلة البصرية. ولحل هذه التحديات، نقترح نموذجًا يُسمى PromptCap (الوصف الصوتي الموجه بالتحفيز)، وهو نموذج وصف صور مصمم ليكون رابطًا أفضل بين الصور والنماذج اللغوية البيضاء (black-box LMs). على عكس العناوين العامة، يأخذ PromptCap مُحفِّزًا بلغة طبيعية للتحكم في الكيانات البصرية التي يتم وصفها في النص الناتج. ويحتوي هذا المُحفِّز على سؤال يجب أن يساعد الوصف في الإجابة عليه. ولتجنب الحاجة إلى تسمية إضافية، يتم تدريب PromptCap باستخدام أمثلة تم إنشاؤها باستخدام GPT-3 وبيانات موجودة. نُظهر فعالية PromptCap في خط أنابيب موجودة، حيث يتم تحفيز GPT-3 باستخدام عناوين الصور لأداء مهمة VQA. ويتفوق PromptCap على العناوين العامة بفارق كبير، ويحقق دقة منافسة للحالة الراهنة في مهام VQA القائمة على المعرفة (60.4% على OK-VQA و59.6% على A-OKVQA). كما تُظهر النتائج بدون تدريب (zero-shot) على WebQA أن PromptCap يُظهر أداءً جيدًا في التعميم على مجالات لم يُرَ من قبل.