HyperAIHyperAI
منذ 2 أشهر

التدريس على مستوى الرموز للتحويل من الرسم إلى الصوت

Hao Sun; Xu Tan; Jun-Wei Gan; Hongzhi Liu; Sheng Zhao; Tao Qin; Tie-Yan Liu
التدريس على مستوى الرموز للتحويل من الرسم إلى الصوت
الملخص

تحويل الرموز البيانية إلى الصوتية (G2P) هو مهمة مهمة في أنظمة التعرف على الكلام تلقائيًا وأنظمة تحويل النص إلى كلام. مؤخرًا، يتم النظر إلى تحويل G2P كمهمة تحويل تسلسلي ونمذجتها باستخدام إطار مُشفر-مُفكك يعتمد على الشبكات العصبية المتكررة (RNN) أو الشبكات العصبية المُ��فة (CNN). ومع ذلك، لم تأخذ الأعمال السابقة في الاعتبار القضايا العملية عند نشر نموذج G2P في النظام الإنتاجي، مثل كيفية الاستفادة من البيانات غير المصنفة الإضافية لتعزيز الدقة وكيفية تقليل حجم النموذج للنشر عبر الإنترنت. في هذا العمل، نقترح تقنية التقطير الجمعي على مستوى الرمز لتحويل G2P، والتي يمكنها (1) تعزيز الدقة من خلال استخلاص المعرفة من البيانات غير المصنفة الإضافية، و(2) تقليل حجم النموذج مع الحفاظ على الدقة العالية، وكلتا الخاصيتين تعتبران عملية ومفيدة للغاية في النظام الإنتاجي عبر الإنترنت. نستخدم تقنية التقطير المعرفي على مستوى الرمز، مما يؤدي إلى دقة أفضل مقارنة بنظيرتها على مستوى التسلسل. بالإضافة إلى ذلك، نعتمد على محول (Transformer) بدلاً من النماذج التي تعتمد على RNN أو CNN لتعزيز دقة تحويل G2P بشكل أكبر. تجارب أجريت على مجموعة بيانات CMUDict المتاحة للعامة وعلى مجموعة بيانات إنجليزية داخلية تثبت فعالية الطريقة المقترحة. بشكل خاص، حققت طرحتنا نسبة خطأ الكلمات (WER) قدرها 19.88% على مجموعة بيانات CMUDict، مما يتفوق على الأعمال السابقة بأكثر من 4.22% WER ويحدد نتائج جديدة رائدة في المجال.

التدريس على مستوى الرموز للتحويل من الرسم إلى الصوت | أحدث الأوراق البحثية | HyperAI