HyperAIHyperAI

Command Palette

Search for a command to run...

التحويل المتعدد الوسائط العدواني لتحليل مشاعر المستوى الفيديوي

Wang Yanan; Wu Jianming; Furumai Kazuaki; Wada Shinya; Kurihara Satoshi

الملخص

تحليل المشاعر على مستوى الفيديو يُعد مهمة صعبة، ويتطلب من الأنظمة الحصول على تمثيلات متعددة الوسائط تمييزية قادرة على التقاط الفروق في المشاعر عبر مختلف الوسائط. ومع ذلك، نظرًا لتباين التوزيعات بين الوسائط المختلفة، وعدم ملاءمة التسميات الموحدة متعددة الوسائط دائمًا للتعلم أحادي الوسائط، يزداد الفرق في المسافات بين التمثيلات أحادية الوسائط، مما يعيق قدرة الأنظمة على تعلم تمثيلات متعددة الوسائط تمييزية. في هذا البحث، لتحسين التمثيلات متعددة الوسائط بشكل يعزز أداء الأنظمة، نقترح نموذج نقل مجال متعدد الوسائط مبني على نموذج التشفير التوليدي التكراري (VAE-AMDT) يُدرَّب بشكل مشترك مع وحدة انتباه متعددة لتقليل الفرق في المسافات بين التمثيلات أحادية الوسائط. نبدأ بتطبيق التشفير التوليدي التكراري (VAE) لجعل تمثيلات البصرية واللغوية والصوتية تتبع توزيعًا مشتركًا، ثم نُدخل التدريب العدواني لنقل جميع التمثيلات أحادية الوسائط إلى فضاء تضمين مشترك. في النتيجة، نُدمج الوسائط المختلفة في هذا الفضاء المشترك باستخدام وحدة الانتباه المتعددة، التي تتضمن انتباه ذاتي، وانتباه متبادل، وانتباه ثلاثي، بهدف التأكيد على التمثيلات العاطفية المهمة عبر الزمن والوسائط. يُظهر أداء النموذج تحسنًا بنسبة 3.6% في مؤشر F1 مقارنة بأفضل النماذج الحالية على مجموعة بيانات MOSI، وبنسبة 2.9% على مجموعة بيانات MOSEI، ما يثبت فعالية النهج في الحصول على تمثيلات متعددة الوسائط تمييزية لتحليل المشاعر على مستوى الفيديو.


بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي
وحدات GPU جاهزة للعمل
أفضل الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp
التحويل المتعدد الوسائط العدواني لتحليل مشاعر المستوى الفيديوي | مستندات | HyperAI