HyperAIHyperAI

Command Palette

Search for a command to run...

التحليل التلقائي للنصوص الكبيرة باللغة الألمانية باستخدام نماذج التعرف على الكلام من الطرف إلى الطرف عبر تقنية CTC

Ludwig Kürzinger Dominik Winkelbauer Lujun Li Tobias Watzel Gerhard Rigoll

الملخص

أظهرت أنظمة التعرف التلقائي على الكلام (ASR) من الطرف إلى الطرف مؤخرًا قدرتها على التفوق على أنظمة ASR الهجينة التقليدية المبنية على DNN/HMM. وبالإضافة إلى التحسينات المعمارية في هذه الأنظمة، زادت هذه النماذج من حيث العمق وعدد المعاملات وسعة النموذج. ومع ذلك، فإن هذه النماذج تتطلب أيضًا كميات أكبر من البيانات التدريبية لتحقيق أداء مماثل.في هذا العمل، قمنا بدمج مجموعات بيانات مفتوحة المصدر متاحة مجانًا لتمييز الكلام باللغة الألمانية، بما في ذلك بيانات صوتية لم تُعلَّم بعد، لتكوين مجموعة بيانات كبيرة تتجاوز 1700 ساعة من البيانات الصوتية. ولإعداد البيانات، اقترحنا نهجًا مزدوج المرحلة يستخدم نموذج ASR مُدرّب مسبقًا باستخدام التصنيف الزمني الاتصالي (CTC) لاستخلاص بيانات تدريب إضافية من بيانات تدريب غير مقسّمة أو غير معلمة. ثم يتم استخراج الجمل الصوتية من احتمالات التسمية الناتجة عن الشبكة المدربة باستخدام CTC، بهدف تحديد تطابق التجزئات. وباستخدام هذه البيانات التدريبية، تم تدريب نموذج هجين يعتمد على CTC والانتباه (Transformer)، والذي حقق معدل خطأ كلمة (WER) قدره 12.8٪ على مجموعة اختبار Tuda-DE، متفوقًا على المعيار السابق البالغ 14.4٪ الذي حققته أنظمة ASR الهجينة التقليدية المبنية على DNN/HMM.


بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي
وحدات GPU جاهزة للعمل
أفضل الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp
التحليل التلقائي للنصوص الكبيرة باللغة الألمانية باستخدام نماذج التعرف على الكلام من الطرف إلى الطرف عبر تقنية CTC | مستندات | HyperAI