HyperAIHyperAI
منذ 11 أيام

النماذج الاحتمالية المخفية العصبية كل ما تحتاجه (للتوليد الصوتي عالي الجودة دون انتباه)

Shivam Mehta, Éva Székely, Jonas Beskow, Gustav Eje Henter
النماذج الاحتمالية المخفية العصبية كل ما تحتاجه (للتوليد الصوتي عالي الجودة دون انتباه)
الملخص

لقد حققت نماذج التوليد الصوتي التسلسلي العصبي (Neural sequence-to-sequence TTS) جودة مخرجات أفضل بشكل ملحوظ مقارنة بنماذج التوليد الصوتي الإحصائي المستندة إلى نماذج ماركوف المخفية (HMMs). ومع ذلك، فإن النماذج العصبية للصوت لا تُعد عادةً احتمالية (probabilistic)، وتستخدم انتباهًا غير متسلسل (non-monotonic attention). ونتيجةً لذلك، تزداد أوقات التدريب، وقد تؤدي فشلات الانتباه إلى توليد نصوص صوتية غير منسقة أو غير مترابطة. يُقدّم هذا البحث طريقة لدمج النمطين القديم والجديد، بهدف الاستفادة من مزايا كلا النهجين معًا، وذلك عن طريق استبدال آلية الانتباه في النماذج العصبية للصوت بنموذج ماركوف المخفية الأوتوريجراسييفي (autoregressive left-right no-skip HMM) المُعرف بواسطة شبكة عصبية. استنادًا إلى هذا الاقتراح، قمنا بتعديل نموذج Tacotron 2 لتكوين نموذج توليد صوتي عصبي مبني على HMM، يتميز بتوافق تسلسلي (monotonic alignment)، ويتم تدريبه لتعظيم احتمالية التسلسل الكامل دون استخدام تقريب. كما نوضح كيف يمكن دمج الأفكار من نماذج TTS التقليدية والحديثة لتحقيق أفضل النتائج. يُنتج النظام الناتج نموذجًا أصغر وأبسط من Tacotron 2، ويتعلم التحدث بعد عدد أقل من التكرارات وبكمية بيانات أقل، مع تحقيق جودة طبيعية مماثلة قبل تطبيق طبقة post-net. كما أن النهج المُقترح يتيح التحكم السهل في معدل النطق.

النماذج الاحتمالية المخفية العصبية كل ما تحتاجه (للتوليد الصوتي عالي الجودة دون انتباه) | أحدث الأوراق البحثية | HyperAI