الكلام العميق: توسيع نطاق التعرف على الكلام من النهاية إلى النهاية

نقدم نظامًا متطورًا للتمييز الصوتي تم تطويره باستخدام التعلم العميق من النهاية إلى النهاية. هيكلنا أبسط بكثير من أنظمة الكلام التقليدية، التي تعتمد على خطوط معالجة مصممة بعناية؛ كما أن هذه الأنظمة التقليدية تميل إلى الأداء السيء عند استخدامها في بيئات صاخبة. بالمقابل، لا يحتاج نظامنا إلى مكونات مصممة يدويًا لنمذجة الضوضاء الخلفية، الانعكاس الصوتي، أو اختلاف المتحدثين، بل بدلاً من ذلك يتعلم مباشرة دالة قادرة على مقاومة مثل هذه الآثار. ليس我们需要 قاموس فونيمي، أو حتى مفهوم "الفونيم" (phoneme). جوهر نهجنا هو نظام تدريب RNN (Recurrent Neural Network) مُحسَّن بشكل جيد يستخدم عدة بطاقات GPU (Graphics Processing Unit)، بالإضافة إلى مجموعة من تقنيات تركيب البيانات الجديدة التي تسمح لنا بالحصول بفعالية على كمية كبيرة ومتنوعة من البيانات للتدريب. نظامنا الذي يُطلق عليه Deep Speech يتفوق على النتائج المنشورة سابقًا في دراسة Switchboard Hub5'00 الشهيرة، حيث حقق نسبة خطأ 16.0% على مجموعة الاختبار الكاملة. كما أن Deep Speech يتعامل مع البيئات الصاخبة والصعبة بشكل أفضل من الأنظمة التجارية المتقدمة المستخدمة على نطاق واسع.