HyperAIHyperAI
منذ 11 أيام

مُشَبِّه مُتَعَمِّد مُتَعَمِّد مُتَوَسِّط مُتَعَمِّد للاعتراف بالعاطفة الصوتية

Samir Sadok, Simon Leglaive, Renaud Séguier
مُشَبِّه مُتَعَمِّد مُتَعَمِّد مُتَوَسِّط مُتَعَمِّد للاعتراف بالعاطفة الصوتية
الملخص

شهدت السنوات الأخيرة تقدماً ملحوظاً في مجال تمييز العواطف الصوتية (SER)، بفضل التطورات في تقنيات التعلم العميق. ومع ذلك، تظل قلة البيانات المُعلَّمة متاحة تحدياً كبيراً في هذا المجال. وقد ظهر التعلم ذاتي التوجيه مؤخراً كحل واعد لمعالجة هذا التحدي. في هذه الورقة، نقترح نموذجاً ذاتياً للتعلم يُدعى VQ-MAE-S (مُشفر متجهي مُقنع بآليات الترميز)، والذي يُدرَّب بدقة لتمييز العواطف من الإشارات الصوتية. يعتمد نموذج VQ-MAE-S على مُشفِّر مُقنع مُقنَّع (MAE) يعمل في الفضاء المُتَقَنَّع المنفصل لـ مُشفِّر التباين المتجهي المُشفر متجهيًا (VQ-VAE). أظهرت النتائج التجريبية أن نموذج VQ-MAE-S المقترح، الذي تم تدريبه مسبقاً على مجموعة بيانات VoxCeleb2 ثم تدريبه بدقة على بيانات صوتية عاطفية، يتفوق على نموذج MAE الذي يعمل على تمثيل الطيف الخام، وكذلك على طرق أخرى من الطراز الأمثل في مجال تمييز العواطف الصوتية.

مُشَبِّه مُتَعَمِّد مُتَعَمِّد مُتَوَسِّط مُتَعَمِّد للاعتراف بالعاطفة الصوتية | أحدث الأوراق البحثية | HyperAI