منذ 3 أشهر
QuartzNet: التعرف التلقائي على الكلام العميق باستخدام تباينات زمنية-قناة أحادية البعد
Samuel Kriman, Stanislav Beliaev, Boris Ginsburg, Jocelyn Huang, Oleksii Kuchaiev, Vitaly Lavrukhin, Ryan Leary, Jason Li, Yang Zhang

الملخص
نُقدّم نموذجًا عصبيًا صوتيًا من النهاية إلى النهاية جديدًا للإعراب الصوتي التلقائي. يتكون النموذج من عدة كتل متصلة بروابط تراكمية (residual connections) بينها. وتشمل كل كتلة واحدة أو أكثر من الوحدات التي تحتوي على طبقات تباينية أحادية البعد (1D time-channel separable convolutional layers)، وطبقات التطبيع بالدفعة (batch normalization)، وطبقات ReLU. وتم تدريب النموذج باستخدام خسارة CTC. ويحقق النموذج المقترح دقة قريبة من الحد الأقصى الممكن في مجموعة بيانات LibriSpeech وWall Street Journal، مع عدد أقل من المعاملات مقارنةً بجميع النماذج المنافسة. كما نُظهر أن هذا النموذج يمكن تحسينه بشكل فعّال على مجموعات بيانات جديدة.