HyperAIHyperAI
منذ 2 أشهر

التشويش الهجين الموجه بالسؤال للإجابة على الأسئلة البصرية

Peng Gao; Pan Lu; Hongsheng Li; Shuang Li; Yikang Li; Steven Hoi; Xiaogang Wang
التشويش الهجين الموجه بالسؤال للإجابة على الأسئلة البصرية
الملخص

في هذا البحث، نقترح شبكة هجينة جديدة موجهة بالسؤال تستخدم التجميع الإدراكية (QGHC) لحل مشكلة الإجابة على الأسئلة المرئية (VQA). معظم الطرق المتطورة في مجال VQA تقوم بدمج الخصائص النصية والبصرية من المستوى العالي من الشبكة العصبية وتتخلى عن المعلومات الفضائية البصرية عند تعلم الخصائص متعددة الوسائط. لمعالجة هذه المشكلات، تم تصميم نواة موجهة بالسؤال يتم إنشاؤها من السؤال المدخل لتجميعها مع الخصائص البصرية بهدف التقاط العلاقة بين النص والصورة في مرحلة مبكرة. يمكن للتجميع الموجه بالسؤال أن يربط بشكل وثيق بين المعلومات النصية والبصرية ولكنه قد يزيد أيضًا من عدد المعلمات عند تعلم النوى. نقوم بتطبيق التجميع الجماعي، الذي يتكون من نوى مستقلة عن السؤال ونوى تعتمد على السؤال، لتقليل حجم المعلمات وتخفيف مشكلة الانعراج الزائد (over-fitting). يمكن للتجميع الهجين أن يولد خصائص متعددة الوسائط تمييزية باستخدام عدد أقل من المعلمات. الطريقة المقترحة مكملة أيضًا للطرق الحالية التي تعتمد على الدمج الثنائي (bilinear pooling) والتوجيه القائم على الانتباه (attention-based) في VQA. عند دمج طرقتنا مع هذه الطرق، يمكن تحقيق زيادة أكبر في الأداء. تؤكد التجارب الواسعة التي أجريت على قواعد بيانات VQA العامة فعالية QGHC.

التشويش الهجين الموجه بالسؤال للإجابة على الأسئلة البصرية | أحدث الأوراق البحثية | HyperAI