HyperAIHyperAI
منذ 16 أيام

التركيب الموحّد للصوت والإشارة باستخدام التوافق التدفقي

Shivam Mehta, Ruibo Tu, Simon Alexanderson, Jonas Beskow, Éva Székely, Gustav Eje Henter
التركيب الموحّد للصوت والإشارة باستخدام التوافق التدفقي
الملخص

مع تقدّم تقنيات تحويل النص إلى كلام إلى درجة طبيعية ملحوظة في المهام التي تتطلب قراءة النص بصوت عالٍ، تزداد الاهتمامات تجاه التوليد متعدد الوسائط للسلوك الاتصالي الشفهي وغير الشفهي، مثل الكلام العفوي والحركة الجسدية المرتبطة به. تقدّم هذه الورقة بنية موحدة جديدة لتوحيد توليد الصوتيات الصوتية والحركة ثلاثية الأبعاد المستندة إلى الهيكل العظمي من النص، مع تدريبها باستخدام تقنية مطابقة التدفق الشرطي المُحسَّن عبر النقل الأمثل (OT-CFM). تمتاز البنية المقترحة ببساطتها مقارنةً بأحدث التقنيات السابقة، وتتمتع بحجم ذاكرة أقل، كما تمكّن من التقاط التوزيع المشترك للصوت والحركة، ما يسمح بتوليد كلا الوسيطين معًا في عملية واحدة. في الوقت نفسه، يُمكّن النظام التدريبي الجديد من تحقيق جودة توليد أفضل في عدد أقل بكثير من الخطوات (تقييمات الشبكة) مقارنةً بالأساليب السابقة. أظهرت اختبارات موضوعية أحادية ومتعددة الوسائط تحسّنًا في طبيعة نطق الكلام، وواقعية الحركات الجسدية، وملاءمة التوافق بين الوسائط مقارنةً بالمعاير الحالية. لمزيد من الأمثلة المرئية والكود، يُرجى زيارة: https://shivammehta25.github.io/Match-TTSG/

التركيب الموحّد للصوت والإشارة باستخدام التوافق التدفقي | أحدث الأوراق البحثية | HyperAI