HyperAIHyperAI
منذ 18 أيام

BERT متعدد الوسائط للتحليل العاطفي النصي-الصوتي

{Kai Gao, Hua Xu, Kaicheng Yang}
الملخص

تحليل المشاعر متعدد الوسائط هو مجال بحثي ناشئ يهدف إلى تمكين الآلات من التعرف على العواطف وتفسيرها والتعبير عنها. من خلال التفاعل بين الوسائط المختلفة، يمكننا الحصول على خصائص عاطفية أكثر شمولاً للمتحدث. يُعد نموذج التمثيل اللغوي المُدرّب مسبقًا من نوع تمثيلات التحويلات الثنائية الاتجاه (BERT) نموذجًا فعّالًا للتمثيل اللغوي المُدرّب مسبقًا، وقد حقق نتائج متفوقة على مستوى الحالة الراهنة في أحد عشر مهمة من مهام معالجة اللغة الطبيعية مثل الإجابة على الأسئلة والاستنتاج اللغوي الطبيعي. ومع ذلك، فإن معظم الدراسات السابقة قامت بتعديل نموذج BERT فقط باستخدام بيانات نصية، أما كيف يمكن تعلم تمثيل أفضل من خلال إدخال معلومات متعددة الوسائط، فما زال مجالًا يستحق الاستكشاف. في هذا البحث، نقترح نموذج BERT متعدد الوسائط (CM-BERT)، الذي يعتمد على التفاعل بين الوسائط النصية والصوتية لتعديل نموذج BERT المُدرّب مسبقًا. وكمكون رئيسي في CM-BERT، تم تصميم انتباه متعدد الوسائط مع إخفاء (masked multimodal attention) بهدف ضبط ديناميكي لوزن الكلمات من خلال دمج معلومات الوسائط النصية والصوتية. وقد قمنا بتقييم طريقة العمل لدينا على مجموعات بيانات عامة لتحليل المشاعر متعدد الوسائط، وهي CMU-MOSI وCMU-MOSEI. وأظهرت نتائج التجارب تحسينًا ملحوظًا في الأداء على جميع المقاييس مقارنة بالأساليب السابقة، وكذلك مقارنة بتعديل BERT فقط على البيانات النصية. بالإضافة إلى ذلك، قمنا بتصور انتباه متعدد الوسائط مع إخفاء، وأثبتنا أنه يمكنه ضبط وزن الكلمات بشكل معقول من خلال إدخال معلومات الوسائط الصوتية.