HyperAIHyperAI

Command Palette

Search for a command to run...

التحويل الصوتي باستخدام الجيران الأقرب فقط

Matthew Baas Benjamin van Niekerk Herman Kamper

الملخص

يهدف التحويل الصوتي من أي إلى أي إلى تحويل الكلام المصدر إلى صوت الوجهة باستخدام بضع أمثلة فقط من المتكلم الوجهة كمرجع. وقد أنتجت الطرق الحديثة تحويلات مقنعة، لكن بتكلفة زيادة التعقيد — ما يجعل النتائج صعبة إعادة الإنتاج والبناء عليها. بدلًا من ذلك، نبقي الأمور بسيطة. نقترح طريقة التحويل الصوتي القائمة على أقرب جيران (kNN-VC): طريقة مباشرة وفعّالة لتحويل الصوت من أي إلى أي. أولاً، نستخرج تمثيلات ذاتية-مُدرَّبة للكلام المصدر والمرجع. ولتحويله إلى صوت المتكلم الوجهة، نستبدل كل إطار من تمثيل المصدر بجاره الأقرب في التمثيل المرجعي. وأخيرًا، يُولِّد مُولِّد صوتي مُدرَّب مسبقًا صوتًا من التمثيل المحوَّل. أظهرت التقييمات الموضوعية والذاتية أن kNN-VC تحسن تشابه المتكلم مع أداء مماثل في درجة فهم الكلام مقارنة بالطرق الحالية. الكود، العينات، النماذج المدرَّبة: https://bshall.github.io/knn-vc


بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي
وحدات GPU جاهزة للعمل
أفضل الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp
التحويل الصوتي باستخدام الجيران الأقرب فقط | مستندات | HyperAI