HyperAIHyperAI
منذ 2 أشهر

محاذاة وانتباه: الإيجاز متعدد الوسائط مع خسارات مقارنة ثنائية

Bo He; Jun Wang; Jielin Qiu; Trung Bui; Abhinav Shrivastava; Zhaowen Wang
محاذاة وانتباه: الإيجاز متعدد الوسائط مع خسارات مقارنة ثنائية
الملخص

هدف التلخيص متعدد الوسائط هو استخراج المعلومات الأكثر أهمية من وسائط مختلفة لتشكيل ملخصات الإخراج. على عكس التلخيص أحادي الوسيلة، فإن مهمة التلخيص متعدد الوسائط تستغل بشكل صريح المعلومات عبر الوسائط لمساعدتها في إنشاء ملخصات أكثر ثقة وجودة عالية. ومع ذلك، تفشل الطرق الحالية في الاستفادة من التوافق الزمني بين الوسائط المختلفة وتتجاهل الارتباط الداخلي بين العينات المختلفة. لحل هذه المشكلة، نقدم نموذج التلخيص متعدد الوسائط "المحاذاة والانتباه" (A2Summ)، وهو نموذج موحد يعتمد على محول متعدد الوسائط يمكنه توجيه وانتباه المدخل متعدد الوسائط بفعالية. بالإضافة إلى ذلك، نقترح خسارتين تضاديتين جديدتين لنمذجة كل من الارتباطات بين العينات والارتباطات داخل العينة. تظهر التجارب الشاملة على مجموعتي بيانات معايير الملخص الفيديو (TVSum و SumMe) ومجموعتي بيانات التلخيص متعدد الوسائط (Daily Mail و CNN) تفوق A2Summ، حيث حقق أفضل الأداء الحالي على جميع المجموعات. علاوة على ذلك، جمعنا مجموعة بيانات كبيرة للتلخيص متعدد الوسائط تسمى BLiSS، والتي تحتوي على مقاطع فيديو مباشرة ونصوص مشتقة مع ملخصات مُشَرَّحَة. رمز البرمجة ومجموعة البيانات الخاصة بنا متاحان للعامة في الرابط: ~\url{https://boheumd.github.io/A2Summ/}.

محاذاة وانتباه: الإيجاز متعدد الوسائط مع خسارات مقارنة ثنائية | أحدث الأوراق البحثية | HyperAI