دراسة مقارنة بين Transformer و RNN في التطبيقات الصوتية

تم استخدام نماذج التسلسل إلى التسلسل على نطاق واسع في معالجة الصوت من النهاية إلى النهاية، مثل التعرف التلقائي على الصوت (ASR)، والترجمة الصوتية (ST)، وتحويل النص إلى صوت (TTS). يركّز هذا البحث على نموذج تسلسلي مُستقبلي يُسمّى Transformer، الذي حقق أداءً متفوّقًا في الترجمة الآلية العصبية وتطبيقات معالجة اللغة الطبيعية الأخرى. قمنا بدراسات مكثفة، حيث قارنا تجريبيًا وحللنا نموذج Transformer مع الشبكات العصبية التكرارية التقليدية (RNN) في إجمالي 15 مهمة للتعرف على الصوت، وواحدة متعددة اللغات، وواحدة للترجمة الصوتية، ومهامين لتحويل النص إلى صوت. كشفت تجاربنا عن نصائح تدريب متعددة، وفوائد أداء كبيرة تم تحقيقها باستخدام Transformer في كل مهمة، بما في ذلك التفوق المفاجئ لنموذج Transformer في 13 من أصل 15 مهمة للتعرف على الصوت مقارنةً بـ RNN. نحن نُعدّ ل釋放出 وصفات قابلة لإعادة التكرار على غرار Kaldi، باستخدام مجموعات بيانات مفتوحة المصدر ومتاحة للعامة، لكل المهام المتعلقة بالتعرف على الصوت، والترجمة الصوتية، وتحويل النص إلى صوت، بهدف تمكين المجتمع العلمي من الاستفادة من نتائجنا المثيرة.