HyperAIHyperAI
منذ 17 أيام

النمذجة الصوتية ذات المرحلة الواحدة القائمة على CRF مع هيكل CTC

{Zhijian Ou, Hongyu Xiang}
النمذجة الصوتية ذات المرحلة الواحدة القائمة على CRF مع هيكل CTC
الملخص

في هذه الورقة، نطوّر نموذجًا صوتيًا أحادي المرحلة (SS) مبنيًا على الحقول العشوائية الشرطية (CRF) مع هيكل حالة مستوحى من التصنيف الزمني المتصل (CTC)، والذي يُعرف اختصارًا بـ CTC-CRF.يتميز CTC-CRF ببساطته المفاهيمية، حيث يُطبّق أساسًا طبقة CRF فوق الميزات الناتجة عن الشبكة العصبية السفلية، مع استخدام هيكل حالة خاص. مثل نموذج SS-LF-MMI (الحد الأقصى للإنتروبيا المتبادلة دون شبكة)، يمكن تدريب نماذج CTC-CRF من البداية (بدون تدريب مسبق)، مما يُلغِي الحاجة إلى التدريب المسبق باستخدام نماذج المزيج الغاوسي-النماذج الهيدرولوجية (GMM-HMM) أو بناء الأشجار.أُجريت تجارب تقييم على مجموعات بيانات WSJ وSwitchboard وLibrispeech. في مقارنة مباشرة، أظهر نموذج CTC-CRF الذي يستخدم LSTM ثنائية الاتجاه (Bidirectional LSTMs) البسيطة أداءً أفضل بشكل متسق مقارنة بنموذج SS-LF-MMI القوي، على جميع مجموعات البيانات الثلاثة، في كل من حالات المونوفون (mono-phones) والمونوأحرف (mono-chars). علاوةً على ذلك، يتفادى نموذج CTC-CRF بعض العمليات اليدوية أو التخصيصية التي تُستخدم في SS-LF-MMI.

النمذجة الصوتية ذات المرحلة الواحدة القائمة على CRF مع هيكل CTC | أحدث الأوراق البحثية | HyperAI