Deep Speech 2: التعرف على الكلام من البداية إلى النهاية باللغتين الإنجليزية والصينية

نظهر أن منهج التعلم العميق من البداية إلى النهاية يمكن استخدامه لتمييز الكلام باللغة الإنجليزية أو اللغة الصينية المندارين - وهما لغتان مختلفتان بشكل كبير. حيث يحل هذا الأسلوب محل خطوط العمل بأكملها التي تم تصميمها يدويًا بشبكات عصبية، مما يتيح لنا التعامل مع تنوع واسع من الكلام بما في ذلك البيئات الصاخبة، اللهجات واللغات المختلفة. العنصر الأساسي في نهجنا هو تطبيق تقنيات الحوسبة عالية الأداء (HPC)، مما أدى إلى زيادة السرعة بمقدار سبع مرات مقارنة بنظامنا السابق. بسبب هذه الكفاءة، أصبحت التجارب التي كانت تستغرق أسابيع تُجرى الآن خلال أيام. وهذا يمكّننا من التكرار بشكل أسرع لاكتشاف هياكل وألgorithms أفضل. نتيجة لذلك، في عدة حالات، يكون نظامنا قابلًا للمقارنة مع نسخ العمال البشريين عند اختباره على مجموعات بيانات قياسية. وأخيرًا، باستخدام تقنية تسمى Batch Dispatch معGPUs في مركز البيانات، نظهر أن نظامنا يمكن نشره بسهولة وبتكلفة زهيدة في بيئة عبر الإنترنت، مما يؤدي إلى تقديم زمن استجابة منخفض عند خدمة المستخدمين على نطاق واسع.