الملخص

الأنظمة الحالية الرائدة في مجال التعرف على الكلام تعتمد على الشبكات العصبية المتكررة للنمذجة الصوتية وللنمذجة اللغوية، وتستند إلى خطوط معالجة الميزات لاستخراج مصفوفات المرشح الميل أو المعاملات الطيفية. في هذا البحث، نقدم نهجًا بديلًا يعتمد تمامًا على الشبكات العصبية التلافيفية، مستفيدًا من التطورات الحديثة في النماذج الصوتية المستخرجة من الإشارة الصوتية الخام والنمذجة اللغوية. يتم تدريب هذا النهج التلافيزي بالكامل من البداية إلى النهاية لتوقع الحروف من الإشارة الصوتية الخام، مما يزيل خطوة استخراج الميزات تمامًا. يستخدم نموذج لغوي تلافيزي خارجي لفك رموز الكلمات. على مجموعة بيانات جورنال وول ستريت، يتطابق نموذجنا مع الأداء الحالي الرائد. وعلى مجموعة بيانات Librispeech، نبلغ عن أداء رائد بين النماذج التي يتم تدريبها من البداية إلى النهاية، بما في ذلك Deep Speech 2 الذي تم تدريبه باستخدام 12 ضعف البيانات الصوتية وأكثر بكثير من البيانات اللغوية.

ملف PDF المصدر

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي

وحدات GPU جاهزة للعمل

أفضل الأسعار

ابدأ عرض الأسعار