منذ 17 أيام
الاعتراف بالصوت من الطرف إلى الطرف باللغة الفيتنامية باستخدام wav2vec 2.0
{Thai Binh Nguyen}
الملخص
تم تدريب نماذجنا مسبقًا على 13,000 ساعة من الصوت المأخوذ من يوتيوب الفيتنامي (بيانات غير مُسَمَّاة)، ثم تم تحسينها دقيقًا على بيانات مجموعة VLSP الخاصة بالتعرف على الكلام (ASR) التي تبلغ 250 ساعة، باستخدام صوت مُsampel بتردد 16 كيلوهرتز. استخدمنا معمارية wav2vec2 للنموذج المُدرَّب مسبقًا. وفي مرحلة التحسين الدقيق، تم تحسين wav2vec2 باستخدام خوارزمية التصنيف الزمني الاتصالي (CTC)، وهي خوارزمية تُستخدم لتدريب الشبكات العصبية على المشكلات من نوع التسلسل إلى التسلسل، وتُطبَّق بشكل رئيسي في التعرف على الكلام التلقائي وتمييز الكتابة اليدوية. وحققنا في مجموعة بيانات Vivos نتيجة مئوية لخطأ التعرف على الكلام (WER) بلغت 6.15%.