محاذاة وانتباه: الإيجاز متعدد الوسائط مع خسارات مقارنة ثنائية

هدف التلخيص متعدد الوسائط هو استخراج المعلومات الأكثر أهمية من وسائط مختلفة لتشكيل ملخصات الإخراج. على عكس التلخيص أحادي الوسيلة، فإن مهمة التلخيص متعدد الوسائط تستغل بشكل صريح المعلومات عبر الوسائط لمساعدتها في إنشاء ملخصات أكثر ثقة وجودة عالية. ومع ذلك، تفشل الطرق الحالية في الاستفادة من التوافق الزمني بين الوسائط المختلفة وتتجاهل الارتباط الداخلي بين العينات المختلفة. لحل هذه المشكلة، نقدم نموذج التلخيص متعدد الوسائط "المحاذاة والانتباه" (A2Summ)، وهو نموذج موحد يعتمد على محول متعدد الوسائط يمكنه توجيه وانتباه المدخل متعدد الوسائط بفعالية. بالإضافة إلى ذلك، نقترح خسارتين تضاديتين جديدتين لنمذجة كل من الارتباطات بين العينات والارتباطات داخل العينة. تظهر التجارب الشاملة على مجموعتي بيانات معايير الملخص الفيديو (TVSum و SumMe) ومجموعتي بيانات التلخيص متعدد الوسائط (Daily Mail و CNN) تفوق A2Summ، حيث حقق أفضل الأداء الحالي على جميع المجموعات. علاوة على ذلك، جمعنا مجموعة بيانات كبيرة للتلخيص متعدد الوسائط تسمى BLiSS، والتي تحتوي على مقاطع فيديو مباشرة ونصوص مشتقة مع ملخصات مُشَرَّحَة. رمز البرمجة ومجموعة البيانات الخاصة بنا متاحان للعامة في الرابط: ~\url{https://boheumd.github.io/A2Summ/}.