HyperAIHyperAI

Command Palette

Search for a command to run...

الاعتراف بالصوت من الطرف إلى الطرف باللغة الفيتنامية باستخدام wav2vec 2.0

Thai Binh Nguyen

الملخص

تم تدريب نماذجنا مسبقًا على 13,000 ساعة من الصوت المأخوذ من يوتيوب الفيتنامي (بيانات غير مُسَمَّاة)، ثم تم تحسينها دقيقًا على بيانات مجموعة VLSP الخاصة بالتعرف على الكلام (ASR) التي تبلغ 250 ساعة، باستخدام صوت مُsampel بتردد 16 كيلوهرتز. استخدمنا معمارية wav2vec2 للنموذج المُدرَّب مسبقًا. وفي مرحلة التحسين الدقيق، تم تحسين wav2vec2 باستخدام خوارزمية التصنيف الزمني الاتصالي (CTC)، وهي خوارزمية تُستخدم لتدريب الشبكات العصبية على المشكلات من نوع التسلسل إلى التسلسل، وتُطبَّق بشكل رئيسي في التعرف على الكلام التلقائي وتمييز الكتابة اليدوية. وحققنا في مجموعة بيانات Vivos نتيجة مئوية لخطأ التعرف على الكلام (WER) بلغت 6.15%.


بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي
وحدات GPU جاهزة للعمل
أفضل الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp