Command Palette
Search for a command to run...
DiaMoE-TTS: إطار موحد لصوتيات اللهجات تعتمد على IPA مع مزيج من الخبراء والتكيف الصفرية الفعالة من حيث المعلمات
Ziqi Chen Gongyu Chen Yihua Wang Chaofan Ding Zihao Chen Wei-Qiang Zhang

الملخص
تمثّل اللهجات تنوعًا ثقافيًا ولغويًا غنيًا، ومع ذلك تظل بناء أنظمة تحويل النص إلى كلام (TTS) للهجات تحديًا كبيرًا نظرًا لقلة البيانات، وعدم اتساق الأنظمة الإملائية، والتباين الصوتي المعقد. ولحل هذه التحديات، نقدّم DiaMoE-TTS، وهي إطار موحد يستند إلى الرموز الدولية للصوتيات (IPA)، يُوحّد تمثيلات الصوتيات ويحلّ مشكلة الغموض في التحويل من الحروف إلى الصوتيات. ويُبنى النظام على بنية F5-TTS، حيث يُدمج فيه مزيج خبراء مُدرك للهجة (Mixture-of-Experts) لتمثيل الفروق الصوتيّة بين الهجات، ويستخدم تقنيات تكييف فعّالة من حيث الموارد من خلال مُعدّلات من الرتبة المنخفضة (LoRA) ومحولات تكييف (Conditioning Adapters) لتمكين نقل سريع إلى هجات جديدة. على عكس النماذج التي تعتمد على مصادر ضخمة أو مملوكة، يتيح DiaMoE-TTS تصنيعًا قابلاً للتوسع ويتمحور حول بيانات مفتوحة. وقد أظهرت التجارب إنتاجًا طبيعيًا وتعبيرًا صوتيًا متميزًا، مع تحقيق أداءً من الصفر (zero-shot) في هجات لم تُرَ من قبل، ونطاقات متخصصة مثل أوبرا بكين، وذلك باستخدام بضع ساعات فقط من البيانات.
بناء الذكاء الاصطناعي بالذكاء الاصطناعي
من الفكرة إلى الإطلاق — عجّل تطوير الذكاء الاصطناعي الخاص بك من خلال البرمجة المشتركة المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.