تقرير فني ماركو-فايس

تُقدّم هذه الورقة نظامًا متعدد الوظائف لتصنيع الصوت، يدمج بين تقنيتي تكرار الصوت (Voice Cloning) وال synthesized الصوتيات القائمة على التحكم بالانفعالات ضمن إطار موحد. ويهدف هذا العمل إلى التصدي للتحديات الطويلة الأمد المتعلقة بإنتاج صوت عاطفي وقابِل للتحكم وطبيعي إلى حد كبير، مع الحفاظ بدقة على هوية المتكلم في سياقات لغوية وانفعالية متنوعة. وتقترح منهجيتنا آلية فعّالة لفصل هوية المتكلم عن النمط العاطفي، باستخدام تقنية التعلم التبايني داخل الدفعة (in-batch contrastive learning)، مما يمكّن من التحكم المستقل في هوية المتكلم ونمط الانفعال، بالإضافة إلى طريقة متكاملة للانفعالات المُدمجة دورانيًا (rotational emotional embedding integration) لتحقيق تحكم سلس في الانفعالات. ولدعم التدريب والاختبار الشاملين، قمنا ببناء مجموعة بيانات صوتية عاطفية عالية الجودة تُدعى CSEMOTIONS، وتشمل 10 ساعات من الكلام باللغة الصينية المعيارية من ستة متحدثين محترفين، موزعة على سبعة فئات عاطفية. وأظهرت التجارب الواسعة أن النظام المقترح، Marco-Voice، حقق تحسينات كبيرة في المقاييس الموضوعية والذاتية على حد سواء. وتم إجراء تقييمات تحليلية شاملة، وقد أظهرت النتائج أن Marco-Voice يحقق أداءً تنافسيًا من حيث وضوح الصوت وثراء العاطفة، ممثلاً تقدماً كبيراً في مجال تصنيع الصوت العصبي التعبيري. ويُتاح الكود البرمجي لمجموعة البيانات لدينا بشكل عام عبر الرابط التالي: [هذا الرابط]، و[هذا الرابط] على التوالي.