HyperAIHyperAI

Command Palette

Search for a command to run...

QuartzNet: التعرف التلقائي على الكلام العميق باستخدام تباينات زمنية-قناة أحادية البعد

Samuel Kriman Stanislav Beliaev Boris Ginsburg Jocelyn Huang Oleksii Kuchaiev Vitaly Lavrukhin Ryan Leary Jason Li Yang Zhang

الملخص

نُقدّم نموذجًا عصبيًا صوتيًا من النهاية إلى النهاية جديدًا للإعراب الصوتي التلقائي. يتكون النموذج من عدة كتل متصلة بروابط تراكمية (residual connections) بينها. وتشمل كل كتلة واحدة أو أكثر من الوحدات التي تحتوي على طبقات تباينية أحادية البعد (1D time-channel separable convolutional layers)، وطبقات التطبيع بالدفعة (batch normalization)، وطبقات ReLU. وتم تدريب النموذج باستخدام خسارة CTC. ويحقق النموذج المقترح دقة قريبة من الحد الأقصى الممكن في مجموعة بيانات LibriSpeech وWall Street Journal، مع عدد أقل من المعاملات مقارنةً بجميع النماذج المنافسة. كما نُظهر أن هذا النموذج يمكن تحسينه بشكل فعّال على مجموعات بيانات جديدة.


بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي
وحدات GPU جاهزة للعمل
أفضل الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp