HyperAIHyperAI

Command Palette

Search for a command to run...

منذ 2 أيام

DiaMoE-TTS: إطار موحد لصوتيات اللهجات تعتمد على IPA مع مزيج من الخبراء والتكيف الصفرية الفعالة من حيث المعلمات

Ziqi Chen Gongyu Chen Yihua Wang Chaofan Ding Zihao Chen Wei-Qiang Zhang

DiaMoE-TTS: إطار موحد لصوتيات اللهجات تعتمد على IPA مع مزيج من الخبراء والتكيف الصفرية الفعالة من حيث المعلمات

الملخص

تمثّل اللهجات تنوعًا ثقافيًا ولغويًا غنيًا، ومع ذلك تظل بناء أنظمة تحويل النص إلى كلام (TTS) للهجات تحديًا كبيرًا نظرًا لقلة البيانات، وعدم اتساق الأنظمة الإملائية، والتباين الصوتي المعقد. ولحل هذه التحديات، نقدّم DiaMoE-TTS، وهي إطار موحد يستند إلى الرموز الدولية للصوتيات (IPA)، يُوحّد تمثيلات الصوتيات ويحلّ مشكلة الغموض في التحويل من الحروف إلى الصوتيات. ويُبنى النظام على بنية F5-TTS، حيث يُدمج فيه مزيج خبراء مُدرك للهجة (Mixture-of-Experts) لتمثيل الفروق الصوتيّة بين الهجات، ويستخدم تقنيات تكييف فعّالة من حيث الموارد من خلال مُعدّلات من الرتبة المنخفضة (LoRA) ومحولات تكييف (Conditioning Adapters) لتمكين نقل سريع إلى هجات جديدة. على عكس النماذج التي تعتمد على مصادر ضخمة أو مملوكة، يتيح DiaMoE-TTS تصنيعًا قابلاً للتوسع ويتمحور حول بيانات مفتوحة. وقد أظهرت التجارب إنتاجًا طبيعيًا وتعبيرًا صوتيًا متميزًا، مع تحقيق أداءً من الصفر (zero-shot) في هجات لم تُرَ من قبل، ونطاقات متخصصة مثل أوبرا بكين، وذلك باستخدام بضع ساعات فقط من البيانات.

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — عجّل تطوير الذكاء الاصطناعي الخاص بك من خلال البرمجة المشتركة المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة المشتركة بالذكاء الاصطناعي
وحدات معالجة رسومات جاهزة
أفضل الأسعار
ابدأ الآن

Hyper Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp
DiaMoE-TTS: إطار موحد لصوتيات اللهجات تعتمد على IPA مع مزيج من الخبراء والتكيف الصفرية الفعالة من حيث المعلمات | الأوراق البحثية | HyperAI