HyperAIHyperAI

Command Palette

Search for a command to run...

CR-CTC: تنظيم الاتساق على CTC لتحسين التعرف على الصوت

Zengwei Yao Wei Kang Xiaoyu Yang Fangjun Kuang Liyong Guo Han Zhu Zengrui Jin Zhaoqing Li Long Lin Daniel Povey

الملخص

يُعد تصنيف الزمن المتصل (CTC) طريقة شائعة الاستخدام في التعرف التلقائي على الكلام (ASR)، ويُعرف ببساطته وفعاليته الحسابية. ومع ذلك، غالبًا ما يفشل في الأداء المعرفي. في هذا العمل، نقترح نموذج CTC المُنظم بالاتساق (CR-CTC)، الذي يفرض اتساقًا بين توزيعين من توزيعات CTC الناتجة عن وجهتين مختلفتين من التحويلات المُضافة للصورة الميل-спектروغرامية للصوت المدخل. نقدم رؤى متعمقة حول سلوكه الأساسي من ثلاث زوايا: 1) يقوم بعملية تعلم ذاتي (self-distillation) بين أزواج عشوائية من النماذج الفرعية التي تعالج وجهات مختلفة من التحويلات المضافة؛ 2) يتعلم تمثيلات سياقية من خلال التنبؤ بحذف المواقع داخل المناطق المُعَمَّاة زمنيًا، خاصة عند زيادة كمية التعمية الزمنية؛ 3) يقلل من توزيعات CTC الشديدة الانتفاخ (القمة العالية جدًا)، مما يقلل من الازدواجية (overfitting) ويعزز قدرة التعميم. أظهرت تجارب واسعة النطاق على مجموعات بيانات LibriSpeech وAishell-1 وGigaSpeech فعالية نموذجنا CR-CTC. فقد عزز الأداء العام لـ CTC بشكل كبير، وحقق نتائج منافسة للحالة الراهنة (state-of-the-art)، مماثلة لتلك التي تُحقَّق باستخدام نماذج الترانسدوكسر أو الأنظمة المدمجة بين CTC ومشغلات الترميز-التحفيز القائمة على الانتباه (CTC/AED). ونُشر الكود الخاص بنا على الرابط: https://github.com/k2-fsa/icefall.


بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي
وحدات GPU جاهزة للعمل
أفضل الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp