منذ 2 أشهر

VQA Plug-and-Play: الإجابة على الأسئلة المرتبطة بالصور دون تدريب مسبق من خلال دمج نماذج مسبقة التدريب كبيرة

Tiong, Anthony Meng Huat ; Li, Junnan ; Li, Boyang ; Savarese, Silvio ; Hoi, Steven C. H.

الملخص

الإجابة على الأسئلة البصرية (VQA) هي علامة مميزة لمنطق الرؤية واللغة، وهي مهمة صعبة في الإعداد بدون تدريب مسبق (zero-shot). نقترح إطارًا قابلاً للوصل والاستخدام (Plug-and-Play VQA) أو (PNP-VQA)، وهو إطار قابل للتجزئة لإجابة الأسئلة البصرية بدون تدريب مسبق. بخلاف معظم الأعمال الحالية التي تتطلب تعديلات كبيرة في النماذج اللغوية المدربة مسبقًا (PLMs) لتكييفها مع وسيلة الرؤية، فإن PNP-VQA لا يتطلب أي تدريب إضافي لهذه النماذج اللغوية. بدلاً من ذلك، نقترح استخدام اللغة الطبيعية وتفسير الشبكة كتمثيل وسيط يربط بين النماذج المدربة مسبقًا. نقوم أولاً بإنشاء تسميات صورية موجهة بالأسئلة وغنية بالمعلومات، ثم نمرر هذه التسميات إلى نموذج لغوي مدرب مسبق (PLM) كسياق للإجابة على الأسئلة. بتجاوز النماذج الأساسية المدربة بشكل متتابع، حقق PNP-VQA أفضل النتائج الحالية في إجابات الأسئلة البصرية بدون تدريب مسبق (VQAv2) وفي مجموعة أسئلة الرؤية العامة (GQA). ومع 11 مليار معامل، فإنه يتفوق على نموذج Flamingo الذي يحتوي على 80 مليار معامل بنسبة 8.5% في VQAv2. ومع وجود 738 مليون معامل لنموذج PLM، حقق PNP-VQA تحسينًا بنسبة 9.1% في GQA مقارنة بنموذج FewVLM الذي يحتوي على 740 مليون معامل لنموذج PLM. تم إطلاق الكود في https://github.com/salesforce/LAVIS/tree/main/projects/pnp-vqa