منذ 2 أشهر
MAST: التلخيص المتعدد الأوضاع مع الانتباه الهرمي الثلاثي الأوضاع
Aman Khullar; Udit Arora

الملخص
يقدم هذا البحث نموذج MAST، وهو نموذج جديد لملخص النص التحليلي متعدد الوسائط الذي يستخدم المعلومات من جميع الوسائط الثلاثة - النص والصوت والفيديو - في فيديو متعدد الوسائط. كانت الأعمال السابقة في مجال ملخص النص التحليلي متعدد الوسائط تستخدم فقط المعلومات من وسائط النص والفيديو. نقوم بفحص فائدة واستخدام المعلومات المستخرجة من وسيلة الصوت ونقدم نموذجًا ثلاثي الوسائط يعتمد على الانتباه التتابعي الهرمي، والذي يتغلب على هذه التحديات من خلال السماح للنموذج بالتركيز بشكل أكبر على وسيلة النص. حقق MAST تفوقًا على أحدث النماذج الحالية (الفيديو-النص) بمقدار 2.51 نقطة فيما يتعلق بدرجة F1 للمحتوى و1.00 نقطة فيما يتعلق بدرجة Rouge-L على مجموعة بيانات How2 لفهم اللغة المتعددة الوسائط.