HyperAIHyperAI
منذ 2 أشهر

الجمع الثنائي المدمج متعدد الوسائط للإجابة على الأسئلة البصرية وتثبيت المرجع البصري

Akira Fukui; Dong Huk Park; Daylen Yang; Anna Rohrbach; Trevor Darrell; Marcus Rohrbach
الجمع الثنائي المدمج متعدد الوسائط للإجابة على الأسئلة البصرية وتثبيت المرجع البصري
الملخص

في السنوات الأخيرة، تم استكشاف نمذجة المعلومات النصية أو البصرية باستخدام تمثيلات متجهية مدربة من قواعد بيانات لغوية أو بصرية كبيرة بنجاح. ومع ذلك، تتطلب المهام مثل الإجابة على الأسئلة البصرية دمج هذه التمثيلات المتجهية مع بعضها البعض. تشمل طرق الدمج متعددة الوسائط الضرب العنصري أو الجمع العنصري، بالإضافة إلى ربط التمثيلات البصرية والنصية. نفترض أن هذه الطرق ليست بالتعبيرية مثل ضرب خارجي للمتجهات البصرية والنصية. ومع كون الضرب الخارجي عادةً غير عملي بسبب بعديته العالية، نقترح بدلاً من ذلك استخدام تقنية الدمج ثنائية الأبعاد المتعددة الوسائط والمدمجة (MCB) لدمج الخصائص متعددة الوسائط بشكل فعال وتعبيرى. نقوم بتقييم MCB بشكل مكثف في مهام الإجابة على الأسئلة البصرية وتحديد المواقع. نظهر باستمرار فوائد MCB مقارنة بالتقديرات التي لا تحتوي على MCB. بالنسبة للإجابة على الأسئلة البصرية، نقدم هندسة معمارية تستخدم MCB مرتين: مرة لتنبؤ الانتباه على الخصائص المكانية، ومرة أخرى لدمج التمثيل الذي حظي بالانتباه مع تمثيل السؤال. يتفوق هذا النموذج على أحدث التقنيات في مجموعة بيانات Visual7W وفي تحدي VQA (Visual Question Answering).

الجمع الثنائي المدمج متعدد الوسائط للإجابة على الأسئلة البصرية وتثبيت المرجع البصري | أحدث الأوراق البحثية | HyperAI