HyperAIHyperAI

Command Palette

Search for a command to run...

نظام RWTH ASR لـ LibriSpeech: الهجين مقابل الانتباه -- بدون تحسين البيانات

Christoph Lüscher¹, Eugen Beck¹,², Kazuki Irie¹, Markus Kitza¹, Wilfried Michel¹,², Albert Zeyer¹,², Ralf Schlüter¹, Hermann Ney¹,²

الملخص

نقدم أنظمة متطورة للاعتراف التلقائي بالكلام (ASR) تستخدم بنية هجينة قياسية تعتمد على الشبكات العصبية العميقة والنموذج الخفي الماركوفي (DNN/HMM) مقارنة بتصميم المُشفر-المُفكك القائم على الانتباه (attention-based encoder-decoder) لمهام LibriSpeech. يتم تقديم وصف مفصل للتطوير النظامي، بما في ذلك تصميم النموذج، خطط التدريب الأولي، جداول التدريب، وطرق التحسين لكل من البنية الهجينة والقائمة على الانتباه. تستخدم كلتا النظامتين LSTM ثنائية الاتجاه للنمذجة الصوتية/التشفير. بالنسبة للنمذجة اللغوية، نستخدم بنى تعتمد على LSTM و Transformer. يتم بناء جميع أنظمتنا باستخدام أدوات رويثس المفتوحة المصدر RASR و RETURNN. حسب أفضل علم المؤلفين، تعتبر النتائج التي تم الحصول عليها عند التدريب على مجموعة التدريب الكاملة لـ LibriSpeech هي الأفضل المنشورة حاليًا، سواءً للأنظمة الهجينة DNN/HMM أو الأنظمة القائمة على الانتباه. بلغ نظامنا الهجين الفردي أداءً أفضل من النتائج السابقة التي تم الحصول عليها من دمج ثمانية أنظمة فردية. يظهر مقارنتنا أن نظام DNN/HMM الهجين يتفوق بنسبة 15% نسبية في مجموعة الاختبار النظيفة وبنسبة 40% نسبية في باقي مجموعات الاختبار مقارنة بنظام الانتباه القائم على LibriSpeech 960 ساعة. بالإضافة إلى ذلك، أظهرت التجارب التي أجريت على مجموعة فرعية مخفضة بحجم 100 ساعة من كوربوس LibriSpeech للتدريب هامشًا أكبر بين البنية الهجينة DNN/HMM والبنية القائمة على الانتباه.


بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي
وحدات GPU جاهزة للعمل
أفضل الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp