HyperAIHyperAI

Command Palette

Search for a command to run...

MMSpeech: التدريب المسبق متعدد الوسائط متعدد المهام للنمذجة المشفرة-المنشئة لتمييز الكلام

Xiaohuan Zhou Jiaming Wang Zeyu Cui Shiliang Zhang Zhijie Yan Jingren Zhou Chang Zhou

الملخص

في هذه الورقة، نقترح إطارًا جديدًا للتدريب المسبق متعدد الوسائط ومتعدد المهام (MMSpeech) يعتمد على نموذج ترميز-إعادة ترميز لتمييز الكلام التلقائي للصوت الصيني (ASR)، والذي يستخدم بيانات صوتية ونصوص غير مُعلَّمة. تكمن الصعوبة الرئيسية في التدريب المسبق المشترك بين الصوت والنص في الفرق الكبير بين وسائط الصوت والنص، خاصةً بالنسبة للصوت والنص الصينيين. على عكس الإنجليزية واللغات الأخرى التي تعتمد على نظام كتابة أبجدي، فإن اللغة الصينية تستخدم نظامًا صوريًا (ideographic) حيث لا يوجد ارتباط ضيق بين الحرف والصوت. ولذلك، نقترح إدخال وسيلة الصوت الفونيمي (phoneme) في عملية التدريب المسبق، مما يمكنه من التقاط المعلومات الثابتة بين وسائط الصوت والنص في اللغة الصينية. بشكل محدد، نستخدم إطارًا للتعلم متعدد المهام يشمل خمسة مهام ذاتية التعلُّم (self-supervised) ومهام مُعلَّمة (supervised) باستخدام بيانات صوتية ونصوص. وللتدريب المسبق المتكامل (end-to-end)، نُدخل مهامًا ذاتية التعلُّم لتحويل الصوت إلى رموز افتراضية (S2C) وتحويل الصوت الفونيمي إلى نص (P2T)، باستخدام بيانات صوتية ونصوص غير مُعلَّمة، حيث تُعتبر أزواج الصوت-الرموز الافتراضية وأزواج الصوت الفونيمي-النص تكميلًا لأزواج الصوت-النص المُعلَّمة. ولتحسين تمثيل الصوت في المُشفر (encoder)، نُضيف مهامًا ذاتية التعلُّم لتنبؤ الصوت المُحجب (masked speech prediction - MSP) ومهامًا مُعلَّمة لتنبؤ الصوت الفونيمي (phoneme prediction - PP) لتمكين التمثيل الصوتي من التحويل إلى أصوات فونيمية. علاوةً على ذلك، نضيف مباشرةً مهمة التدريب المُعلَّمة للصوت إلى النص (S2T) في عملية التدريب المسبق، مما يُحسِّن الأداء بشكل إضافي ويحقق نتائج أفضل في التعرف على الكلام حتى دون عملية التخصيص (fine-tuning). أظهرت التجارب على مجموعة بيانات AISHELL-1 أن الطريقة المقترحة تحقق أداءً متقدمًا جدًا، مع تحسن نسبي يزيد عن 40% مقارنةً بطرق التدريب المسبق الأخرى.


بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي
وحدات GPU جاهزة للعمل
أفضل الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp