HyperAIHyperAI
منذ 17 أيام

3M: شبكات عصبية متعددة الخسائر، متعددة المسارات، ومتعددة المستويات لل erk reconocimiento de voz

Zhao You, Shulin Feng, Dan Su, Dong Yu
3M: شبكات عصبية متعددة الخسائر، متعددة المسارات، ومتعددة المستويات لل erk reconocimiento de voz
الملخص

في الآونة الأخيرة، أصبح نموذج CTC/AED المستند إلى Conformer هو المعمول به على نطاق واسع في مجال التعرف على الكلام (ASR). وفي هذه الورقة البحثية، استنادًا إلى أعمالنا السابقة، قمنا بتحديد ودمج عدة طرق لتحقيق تحسينات إضافية في مهام التعرف على الكلام، ونسمي هذه المنهجيات الثلاث "نموذج 3M"، والتي تشمل: التعلم متعدد الخسائر (multi-loss)، والمسار المتعدد (multi-path)، والمستوى المتعدد (multi-level). وبشكل مفصل، يشير مصطلح التعلم متعدد الخسائر إلى دمج دالة الخسارة المشتركة لـ CTC/AED، بينما يشير المسار المتعدد إلى معمارية خليط الخبراء (Mixture-of-Experts - MoE) التي تزيد من قدرة النموذج بشكل فعّال دون زيادة ملحوظة في التكلفة الحسابية. أما المستوى المتعدد فيعني إدخال خسارة مساعدة على عدة مستويات داخل نموذج عميق لتحسين عملية التدريب. قمنا بتقييم الطريقة المقترحة على مجموعة بيانات WenetSpeech العامة، وأظهرت النتائج التجريبية أن الطريقة المُقترحة تحقق تحسنًا نسبيًا في معدل الخطأ في الرموز (CER) يتراوح بين 12.2% و17.6% مقارنة بالنموذج الأساسي المدرب باستخدام أداة Wenet. كما أظهر النموذج 3M تفوقًا واضحًا على النموذج الأساسي Conformer عند تطبيقه على مجموعة بيانات ضخمة بحجم 150 ألف ساعة. يُمكن الاطلاع على الكود المصدري عبر الرابط التالي: https://github.com/tencent-ailab/3m-asr.

3M: شبكات عصبية متعددة الخسائر، متعددة المسارات، ومتعددة المستويات لل erk reconocimiento de voz | أحدث الأوراق البحثية | HyperAI