HyperAIHyperAI

Command Palette

Search for a command to run...

النمذجة الصوتية ذات المرحلة الواحدة القائمة على CRF مع هيكل CTC

Zhijian Ou Hongyu Xiang

الملخص

في هذه الورقة، نطوّر نموذجًا صوتيًا أحادي المرحلة (SS) مبنيًا على الحقول العشوائية الشرطية (CRF) مع هيكل حالة مستوحى من التصنيف الزمني المتصل (CTC)، والذي يُعرف اختصارًا بـ CTC-CRF.يتميز CTC-CRF ببساطته المفاهيمية، حيث يُطبّق أساسًا طبقة CRF فوق الميزات الناتجة عن الشبكة العصبية السفلية، مع استخدام هيكل حالة خاص. مثل نموذج SS-LF-MMI (الحد الأقصى للإنتروبيا المتبادلة دون شبكة)، يمكن تدريب نماذج CTC-CRF من البداية (بدون تدريب مسبق)، مما يُلغِي الحاجة إلى التدريب المسبق باستخدام نماذج المزيج الغاوسي-النماذج الهيدرولوجية (GMM-HMM) أو بناء الأشجار.أُجريت تجارب تقييم على مجموعات بيانات WSJ وSwitchboard وLibrispeech. في مقارنة مباشرة، أظهر نموذج CTC-CRF الذي يستخدم LSTM ثنائية الاتجاه (Bidirectional LSTMs) البسيطة أداءً أفضل بشكل متسق مقارنة بنموذج SS-LF-MMI القوي، على جميع مجموعات البيانات الثلاثة، في كل من حالات المونوفون (mono-phones) والمونوأحرف (mono-chars). علاوةً على ذلك، يتفادى نموذج CTC-CRF بعض العمليات اليدوية أو التخصيصية التي تُستخدم في SS-LF-MMI.


بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي
وحدات GPU جاهزة للعمل
أفضل الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp