HyperAIHyperAI

Command Palette

Search for a command to run...

نماذج اللغة الصوتية المستمرة

Simon Rouard Manu Orsini Axel Roebel Neil Zeghidour Alexandre Défossez

الملخص

أصبحت نماذج اللغة الصوتية (ALM) النموذج السائد في إنشاء الصوت والموسيقى، من خلال تمثيل الصوت كسلسلة من الرموز المنفصلة. ومع ذلك، على عكس الرموز النصية التي يمكن استرجاعها بدقة، فإن الرموز الصوتية تستخرج من مُشفّرات خسارة (lossy codecs) ذات معدل بت محدود. ونتيجة لذلك، يتطلب تحسين جودة الصوت إنتاج عدد أكبر من الرموز، مما يفرض تنازعاً بين الدقة وتكاليف الحوسبة. لمعالجة هذه المشكلة، قمنا بدراسة نماذج اللغة الصوتية المستمرة (CALM). حيث تُطبّق هذه النماذج هيكلًا أساسيًا كبيرًا من نوع Transformer يُنتج تمثيلًا سياقيًا في كل لحظة زمنية. ثم يُستخدم هذا المعلومات التسلسلية لتوجيه شبكة عصبية متعددة الطبقات (MLP) لإنتاج الإطار التالي من الصوت باستخدام نموذج التوافق (consistency modeling) عبر مُشفر صوتي (VAE). وبتجنب الضغط الخسارة، تحقق نماذج CALM جودة أعلى بتكلفة حوسبة أقل مقارنة بنظيراتها المنفصلة. أظهرت التجارب على الصوت والموسيقى تحسناً في الكفاءة والدقة مقارنة بنماذج اللغة الصوتية المنفصلة الأفضل حالياً، مما يمكّن من إنشاء صوت عالي الجودة وبطريقة خفيفة الوزن. يمكن الاستماع إلى عينات من النتائج عبر الرابط التالي: هذا http URL. وأخيراً، نُطلق نموذج Pocket TTS، وهو نموذج مفتوح المصدر لتحويل النص إلى كلام (text-to-speech) يحتوي على 100 مليون معلمة، ويمكنه العمل بأسرع من الوقت الحقيقي على وحدة معالجة مركزية (CPU) في جهاز لاب توب: هذا http URL.


بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي
وحدات GPU جاهزة للعمل
أفضل الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp
نماذج اللغة الصوتية المستمرة | مستندات | HyperAI