HyperAIHyperAI
منذ 16 أيام

AudioLDM: التوليد الصوتي من النص باستخدام نماذج التمايز المتأخرة في الفضاء المتخفي

Haohe Liu, Zehua Chen, Yi Yuan, Xinhao Mei, Xubo Liu, Danilo Mandic, Wenwu Wang, Mark D. Plumbley
AudioLDM: التوليد الصوتي من النص باستخدام نماذج التمايز المتأخرة في الفضاء المتخفي
الملخص

حصل النظام النصي-الصوتي (TTA) مؤخرًا على اهتمام متزايد بفضل قدرته على توليد صوتيات عامة استنادًا إلى وصفات نصية. ومع ذلك، كانت الدراسات السابقة في مجال TTA محدودة من حيث جودة التوليد ومرتفعة من حيث التكاليف الحسابية. في هذه الدراسة، نقترح نظام AudioLDM، وهو نظام TTA مبني على الفضاء المخفي، يتعلم تمثيلات صوتية مستمرة من خلال تمثيلات الفضاء المخفي المُدرَّبة مسبقًا باستخدام نموذج التعلم المقارن بين اللغة والصوت (CLAP). تُمكّن النماذج المُدرَّبة مسبقًا باستخدام CLAP من تدريب نماذج LDM باستخدام تضمينات صوتية، مع توفير تضمينات نصية كشرط أثناء عملية التوليد. وبفضل تعلُّم التمثيلات المخفية للإشارات الصوتية وتركيباتها دون الحاجة إلى نمذجة العلاقة بين الوسائط المختلفة، يتمتع AudioLDM بميزة واضحة من حيث جودة التوليد والكفاءة الحسابية. تم تدريب النظام باستخدام مجموعة بيانات AudioCaps على وحدة معالجة واحدة (GPU)، وحقق أداءً يُعدّ من أفضل الأداء في مجال TTA وفقًا لمقاييس موضوعية وذاتية (مثل مسافة فريشيت). علاوةً على ذلك، يُعد AudioLDM أول نظام TTA يُمكّن من تنفيذ مجموعة متنوعة من عمليات التعديل الصوتي الموجهة بالنص (مثل نقل الأسلوب) بطريقة صفرية (zero-shot). يمكن الاطلاع على التنفيذ العملي والتطبيقات التوضيحية عبر الموقع الإلكتروني: https://audioldm.github.io.

AudioLDM: التوليد الصوتي من النص باستخدام نماذج التمايز المتأخرة في الفضاء المتخفي | أحدث الأوراق البحثية | HyperAI