منذ 17 أيام

MMSpeech: التدريب المسبق متعدد الوسائط متعدد المهام للنمذجة المشفرة-المنشئة لتمييز الكلام

Xiaohuan Zhou, Jiaming Wang, Zeyu Cui, Shiliang Zhang, Zhijie Yan, Jingren Zhou, Chang Zhou

الملخص

في هذه الورقة، نقترح إطارًا جديدًا للتدريب المسبق متعدد الوسائط ومتعدد المهام (MMSpeech) يعتمد على نموذج ترميز-إعادة ترميز لتمييز الكلام التلقائي للصوت الصيني (ASR)، والذي يستخدم بيانات صوتية ونصوص غير مُعلَّمة. تكمن الصعوبة الرئيسية في التدريب المسبق المشترك بين الصوت والنص في الفرق الكبير بين وسائط الصوت والنص، خاصةً بالنسبة للصوت والنص الصينيين. على عكس الإنجليزية واللغات الأخرى التي تعتمد على نظام كتابة أبجدي، فإن اللغة الصينية تستخدم نظامًا صوريًا (ideographic) حيث لا يوجد ارتباط ضيق بين الحرف والصوت. ولذلك، نقترح إدخال وسيلة الصوت الفونيمي (phoneme) في عملية التدريب المسبق، مما يمكنه من التقاط المعلومات الثابتة بين وسائط الصوت والنص في اللغة الصينية. بشكل محدد، نستخدم إطارًا للتعلم متعدد المهام يشمل خمسة مهام ذاتية التعلُّم (self-supervised) ومهام مُعلَّمة (supervised) باستخدام بيانات صوتية ونصوص. وللتدريب المسبق المتكامل (end-to-end)، نُدخل مهامًا ذاتية التعلُّم لتحويل الصوت إلى رموز افتراضية (S2C) وتحويل الصوت الفونيمي إلى نص (P2T)، باستخدام بيانات صوتية ونصوص غير مُعلَّمة، حيث تُعتبر أزواج الصوت-الرموز الافتراضية وأزواج الصوت الفونيمي-النص تكميلًا لأزواج الصوت-النص المُعلَّمة. ولتحسين تمثيل الصوت في المُشفر (encoder)، نُضيف مهامًا ذاتية التعلُّم لتنبؤ الصوت المُحجب (masked speech prediction - MSP) ومهامًا مُعلَّمة لتنبؤ الصوت الفونيمي (phoneme prediction - PP) لتمكين التمثيل الصوتي من التحويل إلى أصوات فونيمية. علاوةً على ذلك، نضيف مباشرةً مهمة التدريب المُعلَّمة للصوت إلى النص (S2T) في عملية التدريب المسبق، مما يُحسِّن الأداء بشكل إضافي ويحقق نتائج أفضل في التعرف على الكلام حتى دون عملية التخصيص (fine-tuning). أظهرت التجارب على مجموعة بيانات AISHELL-1 أن الطريقة المقترحة تحقق أداءً متقدمًا جدًا، مع تحسن نسبي يزيد عن 40% مقارنةً بطرق التدريب المسبق الأخرى.