HyperAIHyperAI

Command Palette

Search for a command to run...

مُعيار مُعدّل دقيقًا لـ Wav2vec 2.0 / HuBERT لتمييز المشاعر الصوتية، والتحقق من الهوية الصوتية، وفهم اللغة المنطوقة

Yingzhi Wang Abdelmoumene Boumadane Abdelwahab Heba

الملخص

أصبحت نماذج التعلم التلقائي للصوت مثل wav2vec 2.0 وHuBERT تُحدث تقدماً ثورياً في التعرف التلقائي على الكلام (ASR). ومع ذلك، لم تُثبت بشكل كامل قدرتها على تحقيق أداء أفضل في مهام غير ASR. في هذا العمل، استكشفنا التخصيص الجزئي والكامل لنماذج wav2vec 2.0 وHuBERT المُدرَّبة مسبقاً على ثلاث مهام صوتية غير متعلقة بالتعرف على الكلام: التعرف على المشاعر الصوتية، والتحقق من الهوية الصوتية، وفهم اللغة الشفهية. وباستخدام إطارين تطبيقيين بسيطين اقتُرِحا في هذا العمل، تم تحقيق أفضل النتائج بتحقيق دقة موزونة بلغت 79.58% في البيئة المعتمدة على المتكلم، و73.01% في البيئة المستقلة عن المتكلم في مهمة التعرف على المشاعر الصوتية على مجموعة بيانات IEMOCAP، ونسبة خطأ متساوٍ بلغت 2.36% في مهمة التحقق من الهوية الصوتية على مجموعة بيانات VoxCeleb1، ودقة بلغت 89.38% في تصنيف النوايا، وقيمة F1 بلغت 78.92% في ملء الحقول (Slot Filling) على مجموعة بيانات SLURP، مما يُظهر القوة الفعلية لـ wav2vec 2.0 وHuBERT المُخصَّصة في تعلُّم تمثيلات تُعبِّر عن النبرة الصوتية، والبصمة الصوتية، والتمثيل الدلالي.


بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي
وحدات GPU جاهزة للعمل
أفضل الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp