Command Palette
Search for a command to run...
MMER: التعلم متعدد المهام متعدد الوسائط للتعرف على العواطف الصوتية
MMER: التعلم متعدد المهام متعدد الوسائط للتعرف على العواطف الصوتية
Sreyan Ghosh Utkarsh Tyagi S Ramaneswaran Harshvardhan Srivastava Dinesh Manocha
الملخص
في هذه الورقة، نقترح نموذج MMER، وهو نهج جديد للتعلم متعدد المهام متعدد الوسائط للتمييز العاطفي في الكلام. يعتمد MMER على شبكة متعددة الوسائط مبتكرة تعتمد على دمج مبكر بين الوسائط النصية والصوتية، إلى جانب انتباه ذاتي عبر الوسائط (cross-modal self-attention) بين النص والصوت، ويحل ثلاث مهام مساعدة جديدة لتحسين التعرف على العواطف من العبارات الصوتية. في الممارسة، يتفوق MMER على جميع النماذج الأساسية التي قمنا بمقارنتها، ويحقق أداءً رائدًا في معيار IEMOCAP. بالإضافة إلى ذلك، أجرينا دراسات تحليلية موسعة (أبلاغية) وتحليلًا مفصلًا للنتائج لتدعيم فعالية النهج المُقترح.