HyperAIHyperAI
منذ 2 أشهر

التعلم المتعدد الأوضاع للأسئلة البصرية وإجاباتها

Jin-Hwa Kim; Sang-Woo Lee; Dong-Hyun Kwak; Min-Oh Heo; Jeonghee Kim; Jung-Woo Ha; Byoung-Tak Zhang
التعلم المتعدد الأوضاع للأسئلة البصرية وإجاباتها
الملخص

تواصل الشبكات العصبية العميقة تحسين مستوى التقنيات المتقدمة في مهام التعرف على الصور باستخدام مجموعة متنوعة من الطرق. ومع ذلك، فإن تطبيقات هذه الطرق على البيانات متعددة الوسائط لا تزال محدودة. نقدم شبكات البقايا متعددة الوسائط (Multimodal Residual Networks - MRN) للتعلم المتبقي متعدد الوسائط في إجابة الأسئلة المرئية، والتي تمتد فكرة التعلم المتبقي العميق. بخلاف التعلم المتبقي العميق، تعمل MRN على تعلم التمثيل المشترك بكفاءة من المعلومات البصرية واللغوية. الفكرة الرئيسية هي استخدام الضرب العنصري لخرائط البقايا المشتركة مع استغلال التعلم المتبقي للنماذج الانتباهية في الدراسات الحديثة. يتم استكشاف مجموعة متنوعة من النماذج البديلة التي تم تقديمها بواسطة البيانات متعددة الوسائط بناءً على دراستنا. نحقق أفضل النتائج الحالية في مجموعة بيانات Visual QA لكل من المهام ذات الإجابات المفتوحة والمهمات ذات الخيارات المتعددة. بالإضافة إلى ذلك، نقدم طريقة جديدة لتصور تأثير الانتباه للتمثيلات المشتركة لكل كتلة تعلم باستخدام خوارزمية الرجوع الخلفي (back-propagation algorithm)، حتى وإن كانت الخصائص البصرية مشتتة دون معلومات فضائية.