جاسبر: نموذج صوتي عصبي متصل بالكامل

في هذا البحث، نقدم نتائج رائدة على مجموعات بيانات LibriSpeech بين نماذج التعرف على الكلام من النهاية إلى النهاية دون استخدام أي بيانات تدريب خارجية. يستخدم نموذجنا، جاسبر (Jasper)، فقط الالتفافات ذات البعد الواحد (1D convolutions)، التطبيع الدُفعة (batch normalization)، دالة التنشيط ReLU، الإفلات العشوائي (dropout)، والاتصالات المتبقية (residual connections). لتحسين عملية التدريب، قمنا أيضًا بتقديم مُحسِّن طبقي جديد يُسمى NovoGrad. من خلال التجارب، أظهرنا أن العمارة العميقة المقترحة تعمل بنفس الجودة أو أفضل من الخيارات الأكثر تعقيدًا. يستخدم أعمق تباين لـ جاسبر 54 طبقة التفافية. باستخدام هذه العمارة، حققنا معدل خطأ الكلمات (WER) بنسبة 2.95% باستخدام محرك فك شفرة البحث بالشعاع (beam-search decoder) مع نموذج لغوي عصبي خارجي، ونسبة 3.86% باستخدام محرك فك شفرة الطمعي (greedy decoder) على مجموعة بيانات LibriSpeech test-clean. كما نقدم نتائج تنافسية على مجموعات بيانات تقييم المحادثة في Wall Street Journal و Hub5'00.