HyperAIHyperAI
منذ 16 أيام

NaturalSpeech: تحويل النص إلى صوت من النهاية إلى النهاية بجودة تُوازي جودة الإنسان

Xu Tan, Jiawei Chen, Haohe Liu, Jian Cong, Chen Zhang, Yanqing Liu, Xi Wang, Yichong Leng, Yuanhao Yi, Lei He, Frank Soong, Tao Qin, Sheng Zhao, Tie-Yan Liu
NaturalSpeech: تحويل النص إلى صوت من النهاية إلى النهاية بجودة تُوازي جودة الإنسان
الملخص

أحرزت أنظمة تحويل النص إلى كلام (TTS) تقدماً سريعاً في الأوساط الأكاديمية والصناعية خلال السنوات الأخيرة. وتسفر هذه التطورات عن أسئلة طبيعية، مثل ما إذا كان من الممكن أن تحقق أنظمة TTS جودةً تُعادل جودة البشر، وكيف يمكن تعريف أو تقييم هذه الجودة، وكيف يمكن تحقيقها. في هذه الورقة، نجيب على هذه الأسئلة من خلال تعريف الجودة على مستوى البشرية بناءً على الدلالة الإحصائية لقياسات موضوعية، وتقديم إرشادات مناسبة لتقييمها، ثم تطوير نظام TTS يُسمى NaturalSpeech يحقق جودةً تُعادل جودة البشر على مجموعة بيانات معيارية. وبشكل محدد، نستخدم مُشفّرًا تلقائيًا تبادليًا (VAE) لإنشاء الموجات الصوتية مباشرة من النص، مع دمج عدة وحدات رئيسية لتعزيز قدرة التوزيع الأولي المستمد من النص وتقليل تعقيد التوزيع الثانوي المستمد من الصوت، بما في ذلك التدريب المسبق على الحروف الصوتية (phoneme pre-training)، ونمذجة المدة القابلة للتمايز (differentiable duration modeling)، ونمذجة مزدوجة الاتجاه للوزن الأولي والثاني (bidirectional prior/posterior modeling)، وآلية ذاكرة داخل VAE. أظهرت تقييمات التجارب على مجموعة بيانات LJSpeech الشهيرة أن نظام NaturalSpeech الذي نقترحه يحقق درجة CMOS (درجة الرأي المتوسطة المقارنة) تبلغ -0.01 مقارنةً بالتسجيلات البشرية على مستوى الجملة، مع اختبار ويلكوكسون للرتب المرتبطة (Wilcoxon signed rank test) بمستوى دلالة إحصائية p >> 0.05، مما يدل لأول مرة على هذه المجموعة البيانات على عدم وجود فرق إحصائي ملحوظ بين النظام والتسجيلات البشرية.

NaturalSpeech: تحويل النص إلى صوت من النهاية إلى النهاية بجودة تُوازي جودة الإنسان | أحدث الأوراق البحثية | HyperAI