HyperAIHyperAI

Command Palette

Search for a command to run...

3M: شبكات عصبية متعددة الخسائر، متعددة المسارات، ومتعددة المستويات لل erk reconocimiento de voz

Zhao You Shulin Feng Dan Su Dong Yu

الملخص

في الآونة الأخيرة، أصبح نموذج CTC/AED المستند إلى Conformer هو المعمول به على نطاق واسع في مجال التعرف على الكلام (ASR). وفي هذه الورقة البحثية، استنادًا إلى أعمالنا السابقة، قمنا بتحديد ودمج عدة طرق لتحقيق تحسينات إضافية في مهام التعرف على الكلام، ونسمي هذه المنهجيات الثلاث "نموذج 3M"، والتي تشمل: التعلم متعدد الخسائر (multi-loss)، والمسار المتعدد (multi-path)، والمستوى المتعدد (multi-level). وبشكل مفصل، يشير مصطلح التعلم متعدد الخسائر إلى دمج دالة الخسارة المشتركة لـ CTC/AED، بينما يشير المسار المتعدد إلى معمارية خليط الخبراء (Mixture-of-Experts - MoE) التي تزيد من قدرة النموذج بشكل فعّال دون زيادة ملحوظة في التكلفة الحسابية. أما المستوى المتعدد فيعني إدخال خسارة مساعدة على عدة مستويات داخل نموذج عميق لتحسين عملية التدريب. قمنا بتقييم الطريقة المقترحة على مجموعة بيانات WenetSpeech العامة، وأظهرت النتائج التجريبية أن الطريقة المُقترحة تحقق تحسنًا نسبيًا في معدل الخطأ في الرموز (CER) يتراوح بين 12.2% و17.6% مقارنة بالنموذج الأساسي المدرب باستخدام أداة Wenet. كما أظهر النموذج 3M تفوقًا واضحًا على النموذج الأساسي Conformer عند تطبيقه على مجموعة بيانات ضخمة بحجم 150 ألف ساعة. يُمكن الاطلاع على الكود المصدري عبر الرابط التالي: https://github.com/tencent-ailab/3m-asr.


بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي
وحدات GPU جاهزة للعمل
أفضل الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp