Command Palette
Search for a command to run...
نماذج اللغة الصوتية المستمرة
نماذج اللغة الصوتية المستمرة
Simon Rouard Manu Orsini Axel Roebel Neil Zeghidour Alexandre Défossez
الملخص
أصبحت نماذج اللغة الصوتية (ALM) النموذج السائد في إنشاء الصوت والموسيقى، من خلال تمثيل الصوت كسلسلة من الرموز المنفصلة. ومع ذلك، على عكس الرموز النصية التي يمكن استرجاعها بدقة، فإن الرموز الصوتية تستخرج من مُشفّرات خسارة (lossy codecs) ذات معدل بت محدود. ونتيجة لذلك، يتطلب تحسين جودة الصوت إنتاج عدد أكبر من الرموز، مما يفرض تنازعاً بين الدقة وتكاليف الحوسبة. لمعالجة هذه المشكلة، قمنا بدراسة نماذج اللغة الصوتية المستمرة (CALM). حيث تُطبّق هذه النماذج هيكلًا أساسيًا كبيرًا من نوع Transformer يُنتج تمثيلًا سياقيًا في كل لحظة زمنية. ثم يُستخدم هذا المعلومات التسلسلية لتوجيه شبكة عصبية متعددة الطبقات (MLP) لإنتاج الإطار التالي من الصوت باستخدام نموذج التوافق (consistency modeling) عبر مُشفر صوتي (VAE). وبتجنب الضغط الخسارة، تحقق نماذج CALM جودة أعلى بتكلفة حوسبة أقل مقارنة بنظيراتها المنفصلة. أظهرت التجارب على الصوت والموسيقى تحسناً في الكفاءة والدقة مقارنة بنماذج اللغة الصوتية المنفصلة الأفضل حالياً، مما يمكّن من إنشاء صوت عالي الجودة وبطريقة خفيفة الوزن. يمكن الاستماع إلى عينات من النتائج عبر الرابط التالي: هذا http URL. وأخيراً، نُطلق نموذج Pocket TTS، وهو نموذج مفتوح المصدر لتحويل النص إلى كلام (text-to-speech) يحتوي على 100 مليون معلمة، ويمكنه العمل بأسرع من الوقت الحقيقي على وحدة معالجة مركزية (CPU) في جهاز لاب توب: هذا http URL.