Wav2Small: تقليل Wav2Vec2 إلى 72K معلمة للاعتراف بالمشاعر الصوتية في البيئات ذات الموارد المحدودة

التعرف على العواطف في الكلام (SER) يحتاج إلى موارد حاسوبية عالية للتغلب على تحدي الخلاف الكبير بين المعلقين. اليوم، يتجه التعرف على العواطف في الكلام نحو التسميات البعدية للتحريض، والسيطرة، والقيمة (A/D/V). باتت المقاييس العالمية مثل مسافة L2 غير مناسبة لتقييم دقة A/D/V بسبب عدم تقارب آراء المعلقين. ومع ذلك، ظهر معامل ارتباط الكونكوردانس (CCC) كبديل لـ A/D/V حيث يتم تقييم إخراج النموذج لتطابقه مع CCC لمجموعة البيانات بأكملها بدلاً من مسافات L2 للأصوات الفردية. أظهرت الدراسات الحديثة أن هياكل wav2vec2 / wavLM التي تنتج قيمة عائمة لكل بُعد من أبعاد A/D/V تحقق أفضل CCC حاليًا على A/D/V. تعتبر عائلة Wav2Vec2.0 / WavLM ذات بصمة حاسوبية عالية، لكن تدريب نماذج صغيرة باستخدام التسميات البشرية كان غير ناجح. في هذا البحث، نستخدم نموذج Transformer حديثًا يُعتبر من أفضل النماذج الحالية (Sota) كمعلم/معلق لتدريب خمسة نماذج طلاب: أربعة MobileNets ونموذجنا المقترح Wav2Small، باستخدام فقط إخراجات A/D/V للمعلم بدلاً من التسميات البشرية. يحدد النموذج المعلم الذي نقترحه أيضًا سجلًا جديدًا في مجموعة بيانات MSP Podcast بـ CCC قيمته = 0.676.اخترنا MobileNetV4 / MobileNet-V3 كنماذج طلاب لأن MobileNet تم تصميمه لتحقيق أوقات تنفيذ سريعة. كما نقترح Wav2Small - وهي هندسة مصممة لتحقيق أقل عدد من المعلمات واستهلاك للذاكرة العشوائية (RAM). يبلغ حجم Wav2Small عند استخدام ملف .onnx (المكمم) فقط 120 كيلوبايت وهو حل محتمل لـ A/D/V على الأجهزة ذات الموارد المنخفضة، حيث يحتوي على 72K معلمة مقابل 3.12M معلمة لـ MobileNet-V4-Small.