HyperAIHyperAI
منذ 2 أشهر

عرض، سؤال، اهتمام، وإجابة: أساس قوي لأسئلة الإجابة البصرية

Vahid Kazemi; Ali Elqursh
عرض، سؤال، اهتمام، وإجابة: أساس قوي لأسئلة الإجابة البصرية
الملخص

يقدم هذا البحث خطًا أساسيًا جديدًا لمهمة الإجابة على الأسئلة البصرية. مع وجود صورة وسؤال باللغة الطبيعية، ينتج نموذجنا إجابات دقيقة وفقًا لمحتوى الصورة. رغم بساطة تصميم النموذج وصغر حجمه من حيث المعلمات القابلة للتدريب، إلا أنه يحدد مستوىً جديدًا للتفوق في كلا المعيارين غير المتوازين والمتوازين لمهام الإجابة على الأسئلة البصرية (VQA). في تحدي VQA 1.0 المفتوح، حقق نموذجنا دقةً تبلغ 64.6٪ على مجموعة الاختبار القياسية دون استخدام بيانات إضافية، وهو تحسن بنسبة 0.4٪ عن أفضل ما تم تحقيقه سابقًا. وفي VQA 2.0 الذي تم إطلاقه مؤخرًا، سجل نموذجنا نسبة 59.7٪ على مجموعة التحقق من الصحة، متفوقًا على أفضل النتائج المبلغ عنها سابقًا بنسبة 0.5٪. تعتبر النتائج التي قدمها هذا البحث مثيرة للاهتمام بشكل خاص لأن نماذج مشابهة للغاية قد جُرِّبت من قبل ولكن أداءها كان أقل بكثير. وفي ضوء هذه النتائج الجديدة، نأمل أن نرى المزيد من الأبحاث ذات المعنى في مجال الإجابة على الأسئلة البصرية في المستقبل.

عرض، سؤال، اهتمام، وإجابة: أساس قوي لأسئلة الإجابة البصرية | أحدث الأوراق البحثية | HyperAI