HyperAIHyperAI

Command Palette

Search for a command to run...

AudioLDM: التوليد الصوتي من النص باستخدام نماذج التمايز المتأخرة في الفضاء المتخفي

Haohe Liu Zehua Chen Yi Yuan Xinhao Mei Xubo Liu Danilo Mandic Wenwu Wang Mark D. Plumbley

الملخص

حصل النظام النصي-الصوتي (TTA) مؤخرًا على اهتمام متزايد بفضل قدرته على توليد صوتيات عامة استنادًا إلى وصفات نصية. ومع ذلك، كانت الدراسات السابقة في مجال TTA محدودة من حيث جودة التوليد ومرتفعة من حيث التكاليف الحسابية. في هذه الدراسة، نقترح نظام AudioLDM، وهو نظام TTA مبني على الفضاء المخفي، يتعلم تمثيلات صوتية مستمرة من خلال تمثيلات الفضاء المخفي المُدرَّبة مسبقًا باستخدام نموذج التعلم المقارن بين اللغة والصوت (CLAP). تُمكّن النماذج المُدرَّبة مسبقًا باستخدام CLAP من تدريب نماذج LDM باستخدام تضمينات صوتية، مع توفير تضمينات نصية كشرط أثناء عملية التوليد. وبفضل تعلُّم التمثيلات المخفية للإشارات الصوتية وتركيباتها دون الحاجة إلى نمذجة العلاقة بين الوسائط المختلفة، يتمتع AudioLDM بميزة واضحة من حيث جودة التوليد والكفاءة الحسابية. تم تدريب النظام باستخدام مجموعة بيانات AudioCaps على وحدة معالجة واحدة (GPU)، وحقق أداءً يُعدّ من أفضل الأداء في مجال TTA وفقًا لمقاييس موضوعية وذاتية (مثل مسافة فريشيت). علاوةً على ذلك، يُعد AudioLDM أول نظام TTA يُمكّن من تنفيذ مجموعة متنوعة من عمليات التعديل الصوتي الموجهة بالنص (مثل نقل الأسلوب) بطريقة صفرية (zero-shot). يمكن الاطلاع على التنفيذ العملي والتطبيقات التوضيحية عبر الموقع الإلكتروني: https://audioldm.github.io.


بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي
وحدات GPU جاهزة للعمل
أفضل الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp
AudioLDM: التوليد الصوتي من النص باستخدام نماذج التمايز المتأخرة في الفضاء المتخفي | مستندات | HyperAI