إسبريسو: أداة متكاملة سريعة لل erk reconocimiento neurológico للصوت

نقدّم "إسبريسو" (Espresso)، وهي أداة مفتوحة المصدر، قابلة للتعديل والتوسيع، وتعمل كحل شامل للاعتراف بالصوت التلقائي القائم على الشبكات العصبية (ASR)، مبنية على مكتبة التعلم العميق باي تورتش (PyTorch) وأداة النقل الآلي العصبي الشهيرة فاييرسيك (fairseq). تدعم إسبريسو التدريب المتوزع عبر وحدات معالجة الرسوميات (GPUs) والعقد الحاسوبية، وتتميز بعدة أساليب فك التشفير المستخدمة بشكل شائع في أنظمة ASR، بما في ذلك دمج نموذج لغوي قائم على الكلمات مع تقنية "النظر إلى الأمام" (look-ahead)، حيث تم تنفيذ مُفكّك سريع ومتوازٍ لهذا الغرض. تحقق إسبريسو أداءً متقدمًا على مستوى الحالة (state-of-the-art) في مجموعات بيانات WSJ وLibriSpeech وSwitchboard مقارنة بأنظمة ASR الشاملة الأخرى دون الحاجة إلى تعزيز البيانات، كما أنها أسرع من 4 إلى 11 مرة في عملية فك التشفير مقارنة بأنظمة مماثلة (مثل ESPnet).