HyperAIHyperAI

Command Palette

Search for a command to run...

MAST: التلخيص المتعدد الأوضاع مع الانتباه الهرمي الثلاثي الأوضاع

Aman Khullar; Udit Arora

الملخص

يقدم هذا البحث نموذج MAST، وهو نموذج جديد لملخص النص التحليلي متعدد الوسائط الذي يستخدم المعلومات من جميع الوسائط الثلاثة - النص والصوت والفيديو - في فيديو متعدد الوسائط. كانت الأعمال السابقة في مجال ملخص النص التحليلي متعدد الوسائط تستخدم فقط المعلومات من وسائط النص والفيديو. نقوم بفحص فائدة واستخدام المعلومات المستخرجة من وسيلة الصوت ونقدم نموذجًا ثلاثي الوسائط يعتمد على الانتباه التتابعي الهرمي، والذي يتغلب على هذه التحديات من خلال السماح للنموذج بالتركيز بشكل أكبر على وسيلة النص. حقق MAST تفوقًا على أحدث النماذج الحالية (الفيديو-النص) بمقدار 2.51 نقطة فيما يتعلق بدرجة F1 للمحتوى و1.00 نقطة فيما يتعلق بدرجة Rouge-L على مجموعة بيانات How2 لفهم اللغة المتعددة الوسائط.


بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي
وحدات GPU جاهزة للعمل
أفضل الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp
MAST: التلخيص المتعدد الأوضاع مع الانتباه الهرمي الثلاثي الأوضاع | مستندات | HyperAI