Command Palette
Search for a command to run...
التحويل الصوتي باستخدام الجيران الأقرب فقط
التحويل الصوتي باستخدام الجيران الأقرب فقط
Matthew Baas Benjamin van Niekerk Herman Kamper
الملخص
يهدف التحويل الصوتي من أي إلى أي إلى تحويل الكلام المصدر إلى صوت الوجهة باستخدام بضع أمثلة فقط من المتكلم الوجهة كمرجع. وقد أنتجت الطرق الحديثة تحويلات مقنعة، لكن بتكلفة زيادة التعقيد — ما يجعل النتائج صعبة إعادة الإنتاج والبناء عليها. بدلًا من ذلك، نبقي الأمور بسيطة. نقترح طريقة التحويل الصوتي القائمة على أقرب جيران (kNN-VC): طريقة مباشرة وفعّالة لتحويل الصوت من أي إلى أي. أولاً، نستخرج تمثيلات ذاتية-مُدرَّبة للكلام المصدر والمرجع. ولتحويله إلى صوت المتكلم الوجهة، نستبدل كل إطار من تمثيل المصدر بجاره الأقرب في التمثيل المرجعي. وأخيرًا، يُولِّد مُولِّد صوتي مُدرَّب مسبقًا صوتًا من التمثيل المحوَّل. أظهرت التقييمات الموضوعية والذاتية أن kNN-VC تحسن تشابه المتكلم مع أداء مماثل في درجة فهم الكلام مقارنة بالطرق الحالية. الكود، العينات، النماذج المدرَّبة: https://bshall.github.io/knn-vc