HyperAIHyperAI
منذ 17 أيام

fairseq S2T: نمذجة سريعة من الصوت إلى النص باستخدام fairseq

Changhan Wang, Yun Tang, Xutai Ma, Anne Wu, Sravya Popuri, Dmytro Okhonko, Juan Pino
fairseq S2T: نمذجة سريعة من الصوت إلى النص باستخدام fairseq
الملخص

نقدم fairseq S2T، وهو امتداد لـ fairseq مخصص للمهام المتعلقة بنمذجة التحويل من الصوت إلى النص (S2T)، مثل التعرف على الصوت من النهاية إلى النهاية والترجمة من الصوت إلى النص. ويتماشى هذا الإطار مع التصميم الدقيق لـ fairseq من حيث التوسعية والقابلية للتوسيع. نوفر سير عمل من النهاية إلى النهاية يشمل معالجة البيانات المسبقة، وتدريب النماذج، والاستدلال الخارجي (أو المباشر). ونُنفّذ نماذج حديثة على مستوى الرفعة، سواءً القائمة على الشبكات العصبية ذات التكرار (RNN)، أو القائمة على المُحَوِّل (Transformer)، أو القائمة على مُكوّنات التوافق (Conformer)، ونُصدِر وصفًا مفصلاً لخطوات التدريب مفتوح المصدر. ويمكن دمج نماذج الترجمة الآلية ونماذج اللغة المتوفرة في إطار fairseq بشكل سلس ضمن سير عمل S2T، لدعم التعلم متعدد المهام أو التعلم المنقول. تتوفر وثائق و أمثلة لـ fairseq S2T على الرابط التالي: https://github.com/pytorch/fairseq/tree/master/examples/speech_to_text.

fairseq S2T: نمذجة سريعة من الصوت إلى النص باستخدام fairseq | أحدث الأوراق البحثية | HyperAI