منذ 2 أشهر

بناء نماذج الصوت العصبية العميقة للاعتراف بالكلام ذو المفردات الكبيرة

Andrew L. Maas; Peng Qi; Ziang Xie; Awni Y. Hannun; Christopher T. Lengerich; Daniel Jurafsky; Andrew Y. Ng

الملخص

الشبكات العصبية العميقة (DNNs) أصبحت الآن مكونًا أساسيًا في معظم أنظمة التعرف على الكلام المتطورة. بناء نماذج الصوت القائمة على الشبكات العصبية يتطلب عدة قرارات تصميمية، بما في ذلك هندسة الشبكة، حجمها، ودالة الخسارة التدريبية. تقدم هذه الورقة تحقيقًا تجريبيًا حول جوانب تصميم نموذج DNN الصوتي التي تكون الأكثر أهمية لأداء نظام التعرف على الكلام. نبلغ عن أداء تصنيفات DNN ومعدلات الأخطاء الكلامية للمسجل النهائي، ونقارن بين DNNs باستخدام عدة مقاييس لتقدير العوامل المؤثرة في الاختلافات في أداء المهمة. يشمل مجموعة تجاربنا الأولى السجل القياسي القياسي Switchboard، الذي يحتوي على حوالي 300 ساعة من الكلام الهاتفي المحادثي. نقارن بين DNNs القياسية والشبكات الإقحامية (convolutional networks)، ونقدم أول تجارب باستخدام شبكات عصبية محلياً متصلة وغير مرتبطة (locally-connected, untied neural networks) لنموذج الصوت. بالإضافة إلى ذلك، نبني أنظمة على سجل يحتوي على 2,100 ساعة من بيانات التدريب من خلال دمج سجلي Switchboard وFisher. يسمح هذا السجل الأكبر لنا بفحص أداء النماذج الكبيرة من DNN -- والتي تحتوي على ما يصل إلى عشرة أضعاف عدد المعلمات المستخدمة عادةً في أنظمة التعرف على الكلام. تقترح نتائجنا أن هيكل DNN نسبيًا بسيطًا وتقنية الأمثلة تنتج نتائج قوية. تسهم هذه النتائج، بالإضافة إلى الأعمال السابقة، في تحديد مجموعة من أفضل الممارسات لبناء أنظمة التعرف على الكلام الهجينة القائمة على DNN مع تدريب الأرجحية القصوى (maximum likelihood training). كما أن تجاربنا في أمثلة DNN تعمل كدراسة حالة لتدريب DNNs باستخدام دوال خسارة تمييزية (discriminative loss functions) للمهام الصوتية، وكذلك لمصنفات DNN بشكل عام.