HyperAIHyperAI

Command Palette

Search for a command to run...

النماذج الاحتمالية المخفية العصبية كل ما تحتاجه (للتوليد الصوتي عالي الجودة دون انتباه)

Shivam Mehta Éva Székely Jonas Beskow Gustav Eje Henter

الملخص

لقد حققت نماذج التوليد الصوتي التسلسلي العصبي (Neural sequence-to-sequence TTS) جودة مخرجات أفضل بشكل ملحوظ مقارنة بنماذج التوليد الصوتي الإحصائي المستندة إلى نماذج ماركوف المخفية (HMMs). ومع ذلك، فإن النماذج العصبية للصوت لا تُعد عادةً احتمالية (probabilistic)، وتستخدم انتباهًا غير متسلسل (non-monotonic attention). ونتيجةً لذلك، تزداد أوقات التدريب، وقد تؤدي فشلات الانتباه إلى توليد نصوص صوتية غير منسقة أو غير مترابطة. يُقدّم هذا البحث طريقة لدمج النمطين القديم والجديد، بهدف الاستفادة من مزايا كلا النهجين معًا، وذلك عن طريق استبدال آلية الانتباه في النماذج العصبية للصوت بنموذج ماركوف المخفية الأوتوريجراسييفي (autoregressive left-right no-skip HMM) المُعرف بواسطة شبكة عصبية. استنادًا إلى هذا الاقتراح، قمنا بتعديل نموذج Tacotron 2 لتكوين نموذج توليد صوتي عصبي مبني على HMM، يتميز بتوافق تسلسلي (monotonic alignment)، ويتم تدريبه لتعظيم احتمالية التسلسل الكامل دون استخدام تقريب. كما نوضح كيف يمكن دمج الأفكار من نماذج TTS التقليدية والحديثة لتحقيق أفضل النتائج. يُنتج النظام الناتج نموذجًا أصغر وأبسط من Tacotron 2، ويتعلم التحدث بعد عدد أقل من التكرارات وبكمية بيانات أقل، مع تحقيق جودة طبيعية مماثلة قبل تطبيق طبقة post-net. كما أن النهج المُقترح يتيح التحكم السهل في معدل النطق.


بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي
وحدات GPU جاهزة للعمل
أفضل الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp