HyperAIHyperAI
منذ 2 أشهر

VQA-E: شرح، تفصيل وتحسين إجاباتك للأسئلة البصرية

Li, Qing ; Tao, Qingyi ; Joty, Shafiq ; Cai, Jianfei ; Luo, Jiebo
VQA-E: شرح، تفصيل وتحسين إجاباتك للأسئلة البصرية
الملخص

معظم الأعمال الحالية في مجال الإجابة على الأسئلة البصرية (VQA) تركز على تحسين دقة الإجابات المتوقعة، مع تجاهل التفسيرات. نعتقد أن التفسير للإجابة له أهمية مماثلة أو حتى أكبر من الإجابة نفسها، لأنه يجعل عملية السؤال والإجابة أكثر فهمًا وتعقبًا. لهذا الغرض، نقترح مهمة جديدة تسمى VQA-E (VQA مع تفسير)، حيث يُطلب من النماذج الحاسوبية إنتاج تفسير مع الإجابة المتوقعة. أولاً، قمنا ببناء مجموعة بيانات جديدة، ثم صيغنا مشكلة VQA-E في إطار معمارية التعلم متعدد المهام. تم اشتقاق مجموعة بيانات VQA-E الخاصة بنا بشكل آلي من مجموعة بيانات VQA v2 عن طريق استغلال الذكاء للعناوين الموجودة. أجرينا دراسة مستخدم لتأكيد جودة التفسيرات التي تم تركيبها بواسطة طريقتنا. نظهر كميًا أن الرقابة الإضافية من التفسيرات يمكن أن لا تنتج فقط جمل نصية مفيدة لتبرير الإجابات، بل أيضًا تحسن أداء التنبؤ بالإجابات. يتفوق نموذجنا بشكل واضح على أفضل الأساليب الحالية في مجموعة بيانات VQA v2.