منذ 19 أيام
التوافق الخفي للمفاهيم الإجرائية في وصفات متعددة الوسائط
Hossein Rajaby Faghihi, Roshanak Mirzaee, Sudarshan Paliwal, Parisa Kordjamshidi

الملخص
نُقدِّم آلية محاذاة جديدة للتعامل مع الاستدلال الإجرائي على مجموعة بيانات متعددة الوسائط للأسئلة والأجوبة التي تم إطلاقها حديثًا، واسمها RecipeQA. يُحلّل نموذجنا مهمة ملء الفراغ النصي، وهي نوع من فهم القراءة على وصفات تحتوي على صور وتعليمات. نستفيد من قوة شبكات الانتباه، والتمثيلات عبر الوسائط، والفضاء المُحاذي الخفي بين التعليمات والإجابات المرشحة لحل المشكلة. ونُقدِّم تقنية تجميع ماكسيموم مُقيَّدة (constrained max-pooling)، التي تُحسِّن عملية التجميع الأقصى على مصفوفة المحاذاة لفرض قيود عدم التداخل بين مخرجات النموذج. تُظهر نتائج التقييم تحسينًا بنسبة 19٪ مقارنةً بالأساليب الأساسية.