HyperAIHyperAI
منذ 11 أيام

مُعيار مُعدّل دقيقًا لـ Wav2vec 2.0 / HuBERT لتمييز المشاعر الصوتية، والتحقق من الهوية الصوتية، وفهم اللغة المنطوقة

Yingzhi Wang, Abdelmoumene Boumadane, Abdelwahab Heba
مُعيار مُعدّل دقيقًا لـ Wav2vec 2.0 / HuBERT لتمييز المشاعر الصوتية، والتحقق من الهوية الصوتية، وفهم اللغة المنطوقة
الملخص

أصبحت نماذج التعلم التلقائي للصوت مثل wav2vec 2.0 وHuBERT تُحدث تقدماً ثورياً في التعرف التلقائي على الكلام (ASR). ومع ذلك، لم تُثبت بشكل كامل قدرتها على تحقيق أداء أفضل في مهام غير ASR. في هذا العمل، استكشفنا التخصيص الجزئي والكامل لنماذج wav2vec 2.0 وHuBERT المُدرَّبة مسبقاً على ثلاث مهام صوتية غير متعلقة بالتعرف على الكلام: التعرف على المشاعر الصوتية، والتحقق من الهوية الصوتية، وفهم اللغة الشفهية. وباستخدام إطارين تطبيقيين بسيطين اقتُرِحا في هذا العمل، تم تحقيق أفضل النتائج بتحقيق دقة موزونة بلغت 79.58% في البيئة المعتمدة على المتكلم، و73.01% في البيئة المستقلة عن المتكلم في مهمة التعرف على المشاعر الصوتية على مجموعة بيانات IEMOCAP، ونسبة خطأ متساوٍ بلغت 2.36% في مهمة التحقق من الهوية الصوتية على مجموعة بيانات VoxCeleb1، ودقة بلغت 89.38% في تصنيف النوايا، وقيمة F1 بلغت 78.92% في ملء الحقول (Slot Filling) على مجموعة بيانات SLURP، مما يُظهر القوة الفعلية لـ wav2vec 2.0 وHuBERT المُخصَّصة في تعلُّم تمثيلات تُعبِّر عن النبرة الصوتية، والبصمة الصوتية، والتمثيل الدلالي.

مُعيار مُعدّل دقيقًا لـ Wav2vec 2.0 / HuBERT لتمييز المشاعر الصوتية، والتحقق من الهوية الصوتية، وفهم اللغة المنطوقة | أحدث الأوراق البحثية | HyperAI