HyperAIHyperAI

Command Palette

Search for a command to run...

VQA-E: تفسير وإيضاح وتحسين إجاباتك على الأسئلة البصرية

Li Qing Tao Qingyi Joty Shafiq Cai Jianfei Luo Jiebo

الملخص

تُركّز معظم الدراسات الحالية في مجال الإجابة على الأسئلة المرئية (VQA) على تحسين دقة الإجابات المُتنبّأ بها، بينما تتجاهل التفسيرات المرافقة لها. نحن نرى أن التفسير المرافق للإجابة يُعدّ ذات أهمية مماثلة أو حتى أكبر من الإجابة نفسها، لأنه يُسهّل فهم عملية طرح السؤال والإجابة عليه، ويجعلها أكثر قابلية للتتبع. ولتحقيق هذا الهدف، نقترح مهمة جديدة تُعرف بـ VQA-E (الإجابة على الأسئلة المرئية مع التفسير)، حيث يُطلب من النماذج الحسابية إنتاج تفسير مصاحب للإجابة المتنبّأ بها. ونبدأ ببناء مجموعة بيانات جديدة، ثم نُصيغ مشكلة VQA-E ضمن إطار تعلم متعدد المهام. وتُستمد مجموعة بياناتنا VQA-E تلقائيًا من مجموعة بيانات VQA v2 من خلال استغلال ذكي للعناوين (الوصف النصي) المتاحة. وقد أجرينا دراسة مستخدمين لتأكيد جودة التفسيرات التي تم إنشاؤها باستخدام طريقة لدينا. ونُظهر كمّيًا أن الإشراف الإضافي المُتَّخذ من التفسيرات لا يُنتج فقط جملًا نصية مفيدة تبرر الإجابات، بل يُحسّن أيضًا أداء تنبؤ الإجابات. وتتفوّق نماذجنا على أحدث الأساليب الحالية بمدى واضح عند تقييمها على مجموعة بيانات VQA v2.


بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي
وحدات GPU جاهزة للعمل
أفضل الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp
VQA-E: تفسير وإيضاح وتحسين إجاباتك على الأسئلة البصرية | مستندات | HyperAI