HyperAIHyperAI

Command Palette

Search for a command to run...

التركيب الموحّد للصوت والإشارة باستخدام التوافق التدفقي

Shivam Mehta Ruibo Tu Simon Alexanderson Jonas Beskow Éva Székely Gustav Eje Henter

الملخص

مع تقدّم تقنيات تحويل النص إلى كلام إلى درجة طبيعية ملحوظة في المهام التي تتطلب قراءة النص بصوت عالٍ، تزداد الاهتمامات تجاه التوليد متعدد الوسائط للسلوك الاتصالي الشفهي وغير الشفهي، مثل الكلام العفوي والحركة الجسدية المرتبطة به. تقدّم هذه الورقة بنية موحدة جديدة لتوحيد توليد الصوتيات الصوتية والحركة ثلاثية الأبعاد المستندة إلى الهيكل العظمي من النص، مع تدريبها باستخدام تقنية مطابقة التدفق الشرطي المُحسَّن عبر النقل الأمثل (OT-CFM). تمتاز البنية المقترحة ببساطتها مقارنةً بأحدث التقنيات السابقة، وتتمتع بحجم ذاكرة أقل، كما تمكّن من التقاط التوزيع المشترك للصوت والحركة، ما يسمح بتوليد كلا الوسيطين معًا في عملية واحدة. في الوقت نفسه، يُمكّن النظام التدريبي الجديد من تحقيق جودة توليد أفضل في عدد أقل بكثير من الخطوات (تقييمات الشبكة) مقارنةً بالأساليب السابقة. أظهرت اختبارات موضوعية أحادية ومتعددة الوسائط تحسّنًا في طبيعة نطق الكلام، وواقعية الحركات الجسدية، وملاءمة التوافق بين الوسائط مقارنةً بالمعاير الحالية. لمزيد من الأمثلة المرئية والكود، يُرجى زيارة: https://shivammehta25.github.io/Match-TTSG/


بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي
وحدات GPU جاهزة للعمل
أفضل الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp