HyperAIHyperAI

Command Palette

Search for a command to run...

Wav2Small: تقليل Wav2Vec2 إلى 72K معلمة للاعتراف بالمشاعر الصوتية في البيئات ذات الموارد المحدودة

Dionysos Kounadis Bastian Oliver Schrüfer Anna Derington Hagen Wierstorf Florian Eyben Felix Burkhardt Björn W. Schuller

الملخص

التعرف على العواطف في الكلام (SER) يحتاج إلى موارد حاسوبية عالية للتغلب على تحدي الخلاف الكبير بين المعلقين. اليوم، يتجه التعرف على العواطف في الكلام نحو التسميات البعدية للتحريض، والسيطرة، والقيمة (A/D/V). باتت المقاييس العالمية مثل مسافة L2 غير مناسبة لتقييم دقة A/D/V بسبب عدم تقارب آراء المعلقين. ومع ذلك، ظهر معامل ارتباط الكونكوردانس (CCC) كبديل لـ A/D/V حيث يتم تقييم إخراج النموذج لتطابقه مع CCC لمجموعة البيانات بأكملها بدلاً من مسافات L2 للأصوات الفردية. أظهرت الدراسات الحديثة أن هياكل wav2vec2 / wavLM التي تنتج قيمة عائمة لكل بُعد من أبعاد A/D/V تحقق أفضل CCC حاليًا على A/D/V. تعتبر عائلة Wav2Vec2.0 / WavLM ذات بصمة حاسوبية عالية، لكن تدريب نماذج صغيرة باستخدام التسميات البشرية كان غير ناجح. في هذا البحث، نستخدم نموذج Transformer حديثًا يُعتبر من أفضل النماذج الحالية (Sota) كمعلم/معلق لتدريب خمسة نماذج طلاب: أربعة MobileNets ونموذجنا المقترح Wav2Small، باستخدام فقط إخراجات A/D/V للمعلم بدلاً من التسميات البشرية. يحدد النموذج المعلم الذي نقترحه أيضًا سجلًا جديدًا في مجموعة بيانات MSP Podcast بـ CCC قيمته = 0.676.اخترنا MobileNetV4 / MobileNet-V3 كنماذج طلاب لأن MobileNet تم تصميمه لتحقيق أوقات تنفيذ سريعة. كما نقترح Wav2Small - وهي هندسة مصممة لتحقيق أقل عدد من المعلمات واستهلاك للذاكرة العشوائية (RAM). يبلغ حجم Wav2Small عند استخدام ملف .onnx (المكمم) فقط 120 كيلوبايت وهو حل محتمل لـ A/D/V على الأجهزة ذات الموارد المنخفضة، حيث يحتوي على 72K معلمة مقابل 3.12M معلمة لـ MobileNet-V4-Small.


بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي
وحدات GPU جاهزة للعمل
أفضل الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp
Wav2Small: تقليل Wav2Vec2 إلى 72K معلمة للاعتراف بالمشاعر الصوتية في البيئات ذات الموارد المحدودة | مستندات | HyperAI