HyperAIHyperAI
منذ 2 أشهر

البرامج مفتوحة المصدر للاعتراف التلقائي بالكلام لللغة الألمانية

Benjamin Milde; Arne Köhn
البرامج مفتوحة المصدر للاعتراف التلقائي بالكلام لللغة الألمانية
الملخص

التعرف التلقائي عالي الجودة على الكلام (ASR) هو شرط أساسي لتطبيقات وبحوث قائمة على الكلام. بينما يكون أفضل البرمجيات المتاحة حاليًا في مجال التعرف التلقائي على الكلام متاحًا مجانًا، فإن النماذج الصوتية المعتمدة على اللغة تكون ناقصة للغات الأخرى غير الإنجليزية بسبب قلة كمية البيانات التدريبية المتاحة مجانًا. نقوم بتدريب نماذج صوتية لللغة الألمانية باستخدام Kaldi على مجموعتين من البيانات، وكلاهما يتم توزيعه بموجب رخصة Creative Commons. النموذج الناتج يمكن إعادة توزيعه بشكل مجاني، مما يقلل من تكلفة الدخول إلى مجال التعرف التلقائي على الكلام باللغة الألمانية. تم تدريب النماذج على إجمالي 412 ساعة من بيانات الكلام المقروء باللغة الألمانية، وقد حققنا خفضًا نسبيًا بنسبة 26% في معدل الأخطاء الكلامية بإضافة بيانات من موسوعة ويكيبيديا المنطوقة إلى الوصفة والبيانات السابقة لأفضل نموذج صوتي ألماني متاح مجانًا. أفضل نموذج لدينا حقق معدل خطأ كلامي قدره 14.38% على مجموعة اختبار Tuda-De. بفضل العدد الكبير للمتحدثين وموضوعات البيانات المتنوعة التي تم تضمينها في بيانات التدريب، فإن نموذجنا مقاوم للتغيرات في المتحدث والموضوع.