مُشَبِّه مُتَعَمِّد مُتَعَمِّد مُتَوَسِّط مُتَعَمِّد للاعتراف بالعاطفة الصوتية

شهدت السنوات الأخيرة تقدماً ملحوظاً في مجال تمييز العواطف الصوتية (SER)، بفضل التطورات في تقنيات التعلم العميق. ومع ذلك، تظل قلة البيانات المُعلَّمة متاحة تحدياً كبيراً في هذا المجال. وقد ظهر التعلم ذاتي التوجيه مؤخراً كحل واعد لمعالجة هذا التحدي. في هذه الورقة، نقترح نموذجاً ذاتياً للتعلم يُدعى VQ-MAE-S (مُشفر متجهي مُقنع بآليات الترميز)، والذي يُدرَّب بدقة لتمييز العواطف من الإشارات الصوتية. يعتمد نموذج VQ-MAE-S على مُشفِّر مُقنع مُقنَّع (MAE) يعمل في الفضاء المُتَقَنَّع المنفصل لـ مُشفِّر التباين المتجهي المُشفر متجهيًا (VQ-VAE). أظهرت النتائج التجريبية أن نموذج VQ-MAE-S المقترح، الذي تم تدريبه مسبقاً على مجموعة بيانات VoxCeleb2 ثم تدريبه بدقة على بيانات صوتية عاطفية، يتفوق على نموذج MAE الذي يعمل على تمثيل الطيف الخام، وكذلك على طرق أخرى من الطراز الأمثل في مجال تمييز العواطف الصوتية.