HyperAIHyperAI
منذ 18 أيام

التحويل المتعدد الوسائط العدواني لتحليل مشاعر المستوى الفيديوي

{Wang Yanan; Wu Jianming; Furumai Kazuaki; Wada Shinya; Kurihara Satoshi}
الملخص

تحليل المشاعر على مستوى الفيديو يُعد مهمة صعبة، ويتطلب من الأنظمة الحصول على تمثيلات متعددة الوسائط تمييزية قادرة على التقاط الفروق في المشاعر عبر مختلف الوسائط. ومع ذلك، نظرًا لتباين التوزيعات بين الوسائط المختلفة، وعدم ملاءمة التسميات الموحدة متعددة الوسائط دائمًا للتعلم أحادي الوسائط، يزداد الفرق في المسافات بين التمثيلات أحادية الوسائط، مما يعيق قدرة الأنظمة على تعلم تمثيلات متعددة الوسائط تمييزية. في هذا البحث، لتحسين التمثيلات متعددة الوسائط بشكل يعزز أداء الأنظمة، نقترح نموذج نقل مجال متعدد الوسائط مبني على نموذج التشفير التوليدي التكراري (VAE-AMDT) يُدرَّب بشكل مشترك مع وحدة انتباه متعددة لتقليل الفرق في المسافات بين التمثيلات أحادية الوسائط. نبدأ بتطبيق التشفير التوليدي التكراري (VAE) لجعل تمثيلات البصرية واللغوية والصوتية تتبع توزيعًا مشتركًا، ثم نُدخل التدريب العدواني لنقل جميع التمثيلات أحادية الوسائط إلى فضاء تضمين مشترك. في النتيجة، نُدمج الوسائط المختلفة في هذا الفضاء المشترك باستخدام وحدة الانتباه المتعددة، التي تتضمن انتباه ذاتي، وانتباه متبادل، وانتباه ثلاثي، بهدف التأكيد على التمثيلات العاطفية المهمة عبر الزمن والوسائط. يُظهر أداء النموذج تحسنًا بنسبة 3.6% في مؤشر F1 مقارنة بأفضل النماذج الحالية على مجموعة بيانات MOSI، وبنسبة 2.9% على مجموعة بيانات MOSEI، ما يثبت فعالية النهج في الحصول على تمثيلات متعددة الوسائط تمييزية لتحليل المشاعر على مستوى الفيديو.

التحويل المتعدد الوسائط العدواني لتحليل مشاعر المستوى الفيديوي | أحدث الأوراق البحثية | HyperAI