HyperAIHyperAI
منذ 17 أيام

دراسة تجريبية لـ GPT-3 في المهمات القائمة على المعرفة ذات عدد قليل من الأمثلة (Few-Shot Knowledge-Based VQA)

Zhengyuan Yang, Zhe Gan, Jianfeng Wang, Xiaowei Hu, Yumao Lu, Zicheng Liu, Lijuan Wang
دراسة تجريبية لـ GPT-3 في المهمات القائمة على المعرفة ذات عدد قليل من الأمثلة (Few-Shot Knowledge-Based VQA)
الملخص

الإجابة على الأسئلة البصرية القائمة على المعرفة (VQA) تتطلب الإجابة على أسئلة تستدعي معرفة خارجية غير موجودة في الصورة. تُستخدم الطرق الحالية أولاً في استرجاع المعرفة من مصادر خارجية، ثم الاستدلال على المعرفة المختارة والصورة المدخلة والسؤال للتنبؤ بالإجابة. ومع ذلك، قد يؤدي هذا النهج ثنائي الخطوات إلى عدم توافق قد يحد من أداء VQA. على سبيل المثال، قد تكون المعرفة المسترجعة مشوهة وغير ذات صلة بالسؤال، كما أن الميزات المُعاد تضمينها للمعرفة أثناء عملية الاستدلال قد تبتعد عن معانيها الأصلية في قاعدة المعرفة (KB). لمعالجة هذه التحديات، نقترح منهجية PICa، وهي طريقة بسيطة وفعالة تُستخدم فيها صور التصوير (Image Captions) لتمكين GPT-3 من الاستجابة لأسئلة VQA القائمة على المعرفة. مستوحاة من القوة التي يتمتع بها GPT-3 في استرجاع المعرفة والإجابة على الأسئلة، بدلًا من استخدام قواعد معرفة منظمة كما في الدراسات السابقة، نُعامل GPT-3 كقاعدة معرفة ضمنية وغير منظمة، قادرة على اكتساب ومعالجة المعرفة ذات الصلة بشكل مشترك. بشكل محدد، نحول الصورة أولاً إلى وصف (أو علامات) يمكن لـ GPT-3 فهمها، ثم نُعدّل GPT-3 لحل مهمة VQA بطريقة قليلة الأمثلة (few-shot) من خلال إعطاء عدد قليل من الأمثلة المُدمجة في السياق (in-context VQA examples). ونُعزز الأداء بشكل أكبر من خلال دراسة دقيقة لـ: (أ) ما هي التنسيقات النصية الأفضل لوصف محتوى الصورة، و(ب) كيف يمكن اختيار أمثلة السياق بشكل أفضل واستخدامها. تُمكّن PICa من الاستخدام الأول لـ GPT-3 في المهام متعددة الوسائط. وباستخدام فقط 16 مثالًا، تتفوق PICa على أفضل النماذج المدروسة في مجموعة بيانات OK-VQA بمقدار 8.6 نقطة مطلقة. كما قمنا أيضًا بقياس أداء PICa على مجموعة VQAv2، حيث أظهرت أيضًا أداءً جيدًا في السياق القليل من الأمثلة.