HyperAIHyperAI
منذ 2 أشهر

المنطق الذاتي النقدي لتحسين الإجابة على الأسئلة البصرية بشكل متين

Jialin Wu; Raymond J. Mooney
المنطق الذاتي النقدي لتحسين الإجابة على الأسئلة البصرية بشكل متين
الملخص

أنظمة التعلم العميق للإجابة على الأسئلة البصرية (VQA) تميل إلى التقاط الارتباطات الإحصائية السطحية في بيانات التدريب بسبب الأولويات اللغوية القوية، مما يؤدي إلى فشلها في التعميم على بيانات الاختبار ذات التوزيع السؤال-الإجابة (QA) المختلف بشكل كبير. لمعالجة هذه المشكلة، نقدم هدف تدريب ذاتي ناقد يضمن أن شروحات الإجابات الصحيحة بصرياً تتطابق مع المناطق البصرية الأكثر تأثيراً أكثر من المرشحين الآخرين للإجابة. يمكن تحديد المناطق المؤثرة إما من خلال شروحات بصرية/نصية قدمها البشر أو تلقائياً من الكلمات المهمة فقط في السؤال والإجابة. نقيم نهجنا في مهمة التعميم VQA باستخدام مجموعة بيانات VQA-CP، ونحقق أحدث مستوى عالمي، أي 49.5٪ باستخدام الشروحات النصية و48.5٪ باستخدام المناطق المُشَرَّحَة تلقائياً (automatically annotated regions).

المنطق الذاتي النقدي لتحسين الإجابة على الأسئلة البصرية بشكل متين | أحدث الأوراق البحثية | HyperAI