HyperAIHyperAI

Command Palette

Search for a command to run...

دراسة مقارنة بين Transformer و RNN في التطبيقات الصوتية

الملخص

تم استخدام نماذج التسلسل إلى التسلسل على نطاق واسع في معالجة الصوت من النهاية إلى النهاية، مثل التعرف التلقائي على الصوت (ASR)، والترجمة الصوتية (ST)، وتحويل النص إلى صوت (TTS). يركّز هذا البحث على نموذج تسلسلي مُستقبلي يُسمّى Transformer، الذي حقق أداءً متفوّقًا في الترجمة الآلية العصبية وتطبيقات معالجة اللغة الطبيعية الأخرى. قمنا بدراسات مكثفة، حيث قارنا تجريبيًا وحللنا نموذج Transformer مع الشبكات العصبية التكرارية التقليدية (RNN) في إجمالي 15 مهمة للتعرف على الصوت، وواحدة متعددة اللغات، وواحدة للترجمة الصوتية، ومهامين لتحويل النص إلى صوت. كشفت تجاربنا عن نصائح تدريب متعددة، وفوائد أداء كبيرة تم تحقيقها باستخدام Transformer في كل مهمة، بما في ذلك التفوق المفاجئ لنموذج Transformer في 13 من أصل 15 مهمة للتعرف على الصوت مقارنةً بـ RNN. نحن نُعدّ ل釋放出 وصفات قابلة لإعادة التكرار على غرار Kaldi، باستخدام مجموعات بيانات مفتوحة المصدر ومتاحة للعامة، لكل المهام المتعلقة بالتعرف على الصوت، والترجمة الصوتية، وتحويل النص إلى صوت، بهدف تمكين المجتمع العلمي من الاستفادة من نتائجنا المثيرة.


بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي
وحدات GPU جاهزة للعمل
أفضل الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp