Command Palette
Search for a command to run...
VQA-E: تفسير وإيضاح وتحسين إجاباتك على الأسئلة البصرية
VQA-E: تفسير وإيضاح وتحسين إجاباتك على الأسئلة البصرية
Li Qing Tao Qingyi Joty Shafiq Cai Jianfei Luo Jiebo
الملخص
تُركّز معظم الدراسات الحالية في مجال الإجابة على الأسئلة المرئية (VQA) على تحسين دقة الإجابات المُتنبّأ بها، بينما تتجاهل التفسيرات المرافقة لها. نحن نرى أن التفسير المرافق للإجابة يُعدّ ذات أهمية مماثلة أو حتى أكبر من الإجابة نفسها، لأنه يُسهّل فهم عملية طرح السؤال والإجابة عليه، ويجعلها أكثر قابلية للتتبع. ولتحقيق هذا الهدف، نقترح مهمة جديدة تُعرف بـ VQA-E (الإجابة على الأسئلة المرئية مع التفسير)، حيث يُطلب من النماذج الحسابية إنتاج تفسير مصاحب للإجابة المتنبّأ بها. ونبدأ ببناء مجموعة بيانات جديدة، ثم نُصيغ مشكلة VQA-E ضمن إطار تعلم متعدد المهام. وتُستمد مجموعة بياناتنا VQA-E تلقائيًا من مجموعة بيانات VQA v2 من خلال استغلال ذكي للعناوين (الوصف النصي) المتاحة. وقد أجرينا دراسة مستخدمين لتأكيد جودة التفسيرات التي تم إنشاؤها باستخدام طريقة لدينا. ونُظهر كمّيًا أن الإشراف الإضافي المُتَّخذ من التفسيرات لا يُنتج فقط جملًا نصية مفيدة تبرر الإجابات، بل يُحسّن أيضًا أداء تنبؤ الإجابات. وتتفوّق نماذجنا على أحدث الأساليب الحالية بمدى واضح عند تقييمها على مجموعة بيانات VQA v2.