HyperAIHyperAI

Command Palette

Search for a command to run...

بناء نماذج الصوت العصبية العميقة للاعتراف بالكلام ذو المفردات الكبيرة

Andrew L. Maas Peng Qi Ziang Xie Awni Y. Hannun Christopher T. Lengerich Daniel Jurafsky Andrew Y. Ng

الملخص

الشبكات العصبية العميقة (DNNs) أصبحت الآن مكونًا أساسيًا في معظم أنظمة التعرف على الكلام المتطورة. بناء نماذج الصوت القائمة على الشبكات العصبية يتطلب عدة قرارات تصميمية، بما في ذلك هندسة الشبكة، حجمها، ودالة الخسارة التدريبية. تقدم هذه الورقة تحقيقًا تجريبيًا حول جوانب تصميم نموذج DNN الصوتي التي تكون الأكثر أهمية لأداء نظام التعرف على الكلام. نبلغ عن أداء تصنيفات DNN ومعدلات الأخطاء الكلامية للمسجل النهائي، ونقارن بين DNNs باستخدام عدة مقاييس لتقدير العوامل المؤثرة في الاختلافات في أداء المهمة. يشمل مجموعة تجاربنا الأولى السجل القياسي القياسي Switchboard، الذي يحتوي على حوالي 300 ساعة من الكلام الهاتفي المحادثي. نقارن بين DNNs القياسية والشبكات الإقحامية (convolutional networks)، ونقدم أول تجارب باستخدام شبكات عصبية محلياً متصلة وغير مرتبطة (locally-connected, untied neural networks) لنموذج الصوت. بالإضافة إلى ذلك، نبني أنظمة على سجل يحتوي على 2,100 ساعة من بيانات التدريب من خلال دمج سجلي Switchboard وFisher. يسمح هذا السجل الأكبر لنا بفحص أداء النماذج الكبيرة من DNN -- والتي تحتوي على ما يصل إلى عشرة أضعاف عدد المعلمات المستخدمة عادةً في أنظمة التعرف على الكلام. تقترح نتائجنا أن هيكل DNN نسبيًا بسيطًا وتقنية الأمثلة تنتج نتائج قوية. تسهم هذه النتائج، بالإضافة إلى الأعمال السابقة، في تحديد مجموعة من أفضل الممارسات لبناء أنظمة التعرف على الكلام الهجينة القائمة على DNN مع تدريب الأرجحية القصوى (maximum likelihood training). كما أن تجاربنا في أمثلة DNN تعمل كدراسة حالة لتدريب DNNs باستخدام دوال خسارة تمييزية (discriminative loss functions) للمهام الصوتية، وكذلك لمصنفات DNN بشكل عام.


بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي
وحدات GPU جاهزة للعمل
أفضل الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp
بناء نماذج الصوت العصبية العميقة للاعتراف بالكلام ذو المفردات الكبيرة | مستندات | HyperAI