منذ 17 أيام

دراسة مقارنة بين Transformer و RNN في التطبيقات الصوتية

Shigeki Karita, Nanxin Chen, Tomoki Hayashi, Takaaki Hori, Hirofumi Inaguma, Ziyan Jiang, Masao Someki, Nelson Enrique Yalta Soplin, Ryuichi Yamamoto, Xiaofei Wang, Shinji Watanabe, Takenori Yoshimura, Wangyou Zhang

عرض تفاصيل الورقة البحثية

دراسة مقارنة بين Transformer و RNN في التطبيقات الصوتية

الملخص

تم استخدام نماذج التسلسل إلى التسلسل على نطاق واسع في معالجة الصوت من النهاية إلى النهاية، مثل التعرف التلقائي على الصوت (ASR)، والترجمة الصوتية (ST)، وتحويل النص إلى صوت (TTS). يركّز هذا البحث على نموذج تسلسلي مُستقبلي يُسمّى Transformer، الذي حقق أداءً متفوّقًا في الترجمة الآلية العصبية وتطبيقات معالجة اللغة الطبيعية الأخرى. قمنا بدراسات مكثفة، حيث قارنا تجريبيًا وحللنا نموذج Transformer مع الشبكات العصبية التكرارية التقليدية (RNN) في إجمالي 15 مهمة للتعرف على الصوت، وواحدة متعددة اللغات، وواحدة للترجمة الصوتية، ومهامين لتحويل النص إلى صوت. كشفت تجاربنا عن نصائح تدريب متعددة، وفوائد أداء كبيرة تم تحقيقها باستخدام Transformer في كل مهمة، بما في ذلك التفوق المفاجئ لنموذج Transformer في 13 من أصل 15 مهمة للتعرف على الصوت مقارنةً بـ RNN. نحن نُعدّ ل釋放出 وصفات قابلة لإعادة التكرار على غرار Kaldi، باستخدام مجموعات بيانات مفتوحة المصدر ومتاحة للعامة، لكل المهام المتعلقة بالتعرف على الصوت، والترجمة الصوتية، وتحويل النص إلى صوت، بهدف تمكين المجتمع العلمي من الاستفادة من نتائجنا المثيرة.