HyperAIHyperAI
منذ 11 أيام

بداية عصر الترانسفيرمر في التعرف على العواطف الصوتية: إغلاق الفجوة في المزاج

Johannes Wagner, Andreas Triantafyllopoulos, Hagen Wierstorf, Maximilian Schmitt, Felix Burkhardt, Florian Eyben, Björn W. Schuller
بداية عصر الترانسفيرمر في التعرف على العواطف الصوتية: إغلاق الفجوة في المزاج
الملخص

أظهرت التطورات الحديثة في الهياكل القائمة على المُحَوِّل (transformer) التي تم تدريبها مسبقًا بطريقة ذاتية (self-supervised) آفاقًا واعدة في العديد من مهام التعلم الآلي. وفي المجال الصوتي، تم استخدام هذه الهياكل بنجاح في مجال تمييز المشاعر الصوتية (SER). ومع ذلك، لم تُقدِّم الدراسات الحالية تقييمًا لتأثير حجم النموذج وبيانات التدريب المسبق على الأداء في المهام اللاحقة، كما أظهرت اهتمامًا محدودًا بالقدرة على التعميم، والثبات، والعدالة، والكفاءة. تقدم هذه الدراسة تحليلًا شاملاً لهذه الجوانب على عدة نماذج مُدرَّبة مسبقًا من wav2vec 2.0 وHuBERT، والتي تم تحسينها دقيقًا (fine-tuned) على محاور الاستيقاظ (arousal) والهيمنة (dominance) والقيمة (valence) في مجموعة بيانات MSP-Podcast، مع استخدام إضافي لمجموعتي بيانات IEMOCAP وMOSI لاختبار القدرة على التعميم عبر المجموعات. إلى حد معرفتنا، نحن نحقق أفضل أداء في توقع القيمة (valence) دون استخدام معلومات لغوية صريحة، بمعامل ارتباط تآزُني (CCC) قدره 0.638 على مجموعة MSP-Podcast. علاوةً على ذلك، كشفت دراساتنا أن الهياكل القائمة على المُحَوِّل تكون أكثر ثباتًا تجاه الاضطرابات الصغيرة مقارنة بنموذج أساسي مبني على الشبكة العصبية التلافيفية (CNN)، وتحافظ على عدالة نسبية بالنسبة لمجموعات الجنس البيولوجي، لكنها لا تُظهر نفس الدرجة من العدالة تجاه الأفراد (المتحدثين). وأخيرًا، نحن أول من أظهر أن نجاحها الاستثنائي في توقع القيمة يُعزى إلى معلومات لغوية ضمنية تُتعلم أثناء عملية التحسين الدقيق لطبقات المُحَوِّل، وهو ما يفسر سبب أداءها المُماثل للنماذج متعددة الوسائط الحديثة التي تستخدم بشكل صريح المعلومات النصية. تُشكّل نتائجنا صورة شاملة تُشير إلى أن الهياكل القائمة على المُحَوِّل تمثل الحد الأدنى من التقنية الحالية (state-of-the-art) في مجال تمييز المشاعر الصوتية، لكن هناك حاجة إلى تطورات إضافية لتقليل المشكلات المتبقية المتعلقة بالثبات ومشكلة التمييز حسب المتحدث الفردي. ولضمان قابلية إعادة التكرار، نُشر النموذج الأفضل أداءً في المجتمع العلمي.

بداية عصر الترانسفيرمر في التعرف على العواطف الصوتية: إغلاق الفجوة في المزاج | أحدث الأوراق البحثية | HyperAI