HyperAIHyperAI
منذ 17 أيام

إسبريسو: أداة متكاملة سريعة لل erk reconocimiento neurológico للصوت

Yiming Wang, Tongfei Chen, Hainan Xu, Shuoyang Ding, Hang Lv, Yiwen Shao, Nanyun Peng, Lei Xie, Shinji Watanabe, Sanjeev Khudanpur
إسبريسو: أداة متكاملة سريعة لل erk reconocimiento neurológico للصوت
الملخص

نقدّم "إسبريسو" (Espresso)، وهي أداة مفتوحة المصدر، قابلة للتعديل والتوسيع، وتعمل كحل شامل للاعتراف بالصوت التلقائي القائم على الشبكات العصبية (ASR)، مبنية على مكتبة التعلم العميق باي تورتش (PyTorch) وأداة النقل الآلي العصبي الشهيرة فاييرسيك (fairseq). تدعم إسبريسو التدريب المتوزع عبر وحدات معالجة الرسوميات (GPUs) والعقد الحاسوبية، وتتميز بعدة أساليب فك التشفير المستخدمة بشكل شائع في أنظمة ASR، بما في ذلك دمج نموذج لغوي قائم على الكلمات مع تقنية "النظر إلى الأمام" (look-ahead)، حيث تم تنفيذ مُفكّك سريع ومتوازٍ لهذا الغرض. تحقق إسبريسو أداءً متقدمًا على مستوى الحالة (state-of-the-art) في مجموعات بيانات WSJ وLibriSpeech وSwitchboard مقارنة بأنظمة ASR الشاملة الأخرى دون الحاجة إلى تعزيز البيانات، كما أنها أسرع من 4 إلى 11 مرة في عملية فك التشفير مقارنة بأنظمة مماثلة (مثل ESPnet).

إسبريسو: أداة متكاملة سريعة لل erk reconocimiento neurológico للصوت | أحدث الأوراق البحثية | HyperAI