منذ شهر واحد

الملخص

أصبحت نماذج اللغة الصوتية (ALM) النموذج السائد في إنشاء الصوت والموسيقى، من خلال تمثيل الصوت كسلسلة من الرموز المنفصلة. ومع ذلك، على عكس الرموز النصية التي يمكن استرجاعها بدقة، فإن الرموز الصوتية تستخرج من مُشفّرات خسارة (lossy codecs) ذات معدل بت محدود. ونتيجة لذلك، يتطلب تحسين جودة الصوت إنتاج عدد أكبر من الرموز، مما يفرض تنازعاً بين الدقة وتكاليف الحوسبة. لمعالجة هذه المشكلة، قمنا بدراسة نماذج اللغة الصوتية المستمرة (CALM). حيث تُطبّق هذه النماذج هيكلًا أساسيًا كبيرًا من نوع Transformer يُنتج تمثيلًا سياقيًا في كل لحظة زمنية. ثم يُستخدم هذا المعلومات التسلسلية لتوجيه شبكة عصبية متعددة الطبقات (MLP) لإنتاج الإطار التالي من الصوت باستخدام نموذج التوافق (consistency modeling) عبر مُشفر صوتي (VAE). وبتجنب الضغط الخسارة، تحقق نماذج CALM جودة أعلى بتكلفة حوسبة أقل مقارنة بنظيراتها المنفصلة. أظهرت التجارب على الصوت والموسيقى تحسناً في الكفاءة والدقة مقارنة بنماذج اللغة الصوتية المنفصلة الأفضل حالياً، مما يمكّن من إنشاء صوت عالي الجودة وبطريقة خفيفة الوزن. يمكن الاستماع إلى عينات من النتائج عبر الرابط التالي: هذا http URL. وأخيراً، نُطلق نموذج Pocket TTS، وهو نموذج مفتوح المصدر لتحويل النص إلى كلام (text-to-speech) يحتوي على 100 مليون معلمة، ويمكنه العمل بأسرع من الوقت الحقيقي على وحدة معالجة مركزية (CPU) في جهاز لاب توب: هذا http URL.

ملف PDF المصدر عرض الكود

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي

وحدات GPU جاهزة للعمل

أفضل الأسعار

ابدأ عرض الأسعار