HyperAIHyperAI

Command Palette

Search for a command to run...

VQA Plug-and-Play: الإجابة على الأسئلة المرتبطة بالصور دون تدريب مسبق من خلال دمج نماذج مسبقة التدريب كبيرة

Anthony Meng Huat Tiong Junnan Li Boyang Li Silvio Savarese Steven C.H. Hoi

الملخص

الإجابة على الأسئلة البصرية (VQA) هي علامة مميزة لمنطق الرؤية واللغة، وهي مهمة صعبة في الإعداد بدون تدريب مسبق (zero-shot). نقترح إطارًا قابلاً للوصل والاستخدام (Plug-and-Play VQA) أو (PNP-VQA)، وهو إطار قابل للتجزئة لإجابة الأسئلة البصرية بدون تدريب مسبق. بخلاف معظم الأعمال الحالية التي تتطلب تعديلات كبيرة في النماذج اللغوية المدربة مسبقًا (PLMs) لتكييفها مع وسيلة الرؤية، فإن PNP-VQA لا يتطلب أي تدريب إضافي لهذه النماذج اللغوية. بدلاً من ذلك، نقترح استخدام اللغة الطبيعية وتفسير الشبكة كتمثيل وسيط يربط بين النماذج المدربة مسبقًا. نقوم أولاً بإنشاء تسميات صورية موجهة بالأسئلة وغنية بالمعلومات، ثم نمرر هذه التسميات إلى نموذج لغوي مدرب مسبق (PLM) كسياق للإجابة على الأسئلة. بتجاوز النماذج الأساسية المدربة بشكل متتابع، حقق PNP-VQA أفضل النتائج الحالية في إجابات الأسئلة البصرية بدون تدريب مسبق (VQAv2) وفي مجموعة أسئلة الرؤية العامة (GQA). ومع 11 مليار معامل، فإنه يتفوق على نموذج Flamingo الذي يحتوي على 80 مليار معامل بنسبة 8.5% في VQAv2. ومع وجود 738 مليون معامل لنموذج PLM، حقق PNP-VQA تحسينًا بنسبة 9.1% في GQA مقارنة بنموذج FewVLM الذي يحتوي على 740 مليون معامل لنموذج PLM. تم إطلاق الكود في https://github.com/salesforce/LAVIS/tree/main/projects/pnp-vqa


بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي
وحدات GPU جاهزة للعمل
أفضل الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp