HyperAIHyperAI

Command Palette

Search for a command to run...

محاذاة وانتباه: الإيجاز متعدد الوسائط مع خسارات مقارنة ثنائية

Bo He Jun Wang Jielin Qiu Trung Bui Abhinav Shrivastava Zhaowen Wang

الملخص

هدف التلخيص متعدد الوسائط هو استخراج المعلومات الأكثر أهمية من وسائط مختلفة لتشكيل ملخصات الإخراج. على عكس التلخيص أحادي الوسيلة، فإن مهمة التلخيص متعدد الوسائط تستغل بشكل صريح المعلومات عبر الوسائط لمساعدتها في إنشاء ملخصات أكثر ثقة وجودة عالية. ومع ذلك، تفشل الطرق الحالية في الاستفادة من التوافق الزمني بين الوسائط المختلفة وتتجاهل الارتباط الداخلي بين العينات المختلفة. لحل هذه المشكلة، نقدم نموذج التلخيص متعدد الوسائط "المحاذاة والانتباه" (A2Summ)، وهو نموذج موحد يعتمد على محول متعدد الوسائط يمكنه توجيه وانتباه المدخل متعدد الوسائط بفعالية. بالإضافة إلى ذلك، نقترح خسارتين تضاديتين جديدتين لنمذجة كل من الارتباطات بين العينات والارتباطات داخل العينة. تظهر التجارب الشاملة على مجموعتي بيانات معايير الملخص الفيديو (TVSum و SumMe) ومجموعتي بيانات التلخيص متعدد الوسائط (Daily Mail و CNN) تفوق A2Summ، حيث حقق أفضل الأداء الحالي على جميع المجموعات. علاوة على ذلك، جمعنا مجموعة بيانات كبيرة للتلخيص متعدد الوسائط تسمى BLiSS، والتي تحتوي على مقاطع فيديو مباشرة ونصوص مشتقة مع ملخصات مُشَرَّحَة. رمز البرمجة ومجموعة البيانات الخاصة بنا متاحان للعامة في الرابط: ~\url{https://boheumd.github.io/A2Summ/}.


بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي
وحدات GPU جاهزة للعمل
أفضل الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp