منذ 6 أشهر

الملخص

حصل النظام النصي-الصوتي (TTA) مؤخرًا على اهتمام متزايد بفضل قدرته على توليد صوتيات عامة استنادًا إلى وصفات نصية. ومع ذلك، كانت الدراسات السابقة في مجال TTA محدودة من حيث جودة التوليد ومرتفعة من حيث التكاليف الحسابية. في هذه الدراسة، نقترح نظام AudioLDM، وهو نظام TTA مبني على الفضاء المخفي، يتعلم تمثيلات صوتية مستمرة من خلال تمثيلات الفضاء المخفي المُدرَّبة مسبقًا باستخدام نموذج التعلم المقارن بين اللغة والصوت (CLAP). تُمكّن النماذج المُدرَّبة مسبقًا باستخدام CLAP من تدريب نماذج LDM باستخدام تضمينات صوتية، مع توفير تضمينات نصية كشرط أثناء عملية التوليد. وبفضل تعلُّم التمثيلات المخفية للإشارات الصوتية وتركيباتها دون الحاجة إلى نمذجة العلاقة بين الوسائط المختلفة، يتمتع AudioLDM بميزة واضحة من حيث جودة التوليد والكفاءة الحسابية. تم تدريب النظام باستخدام مجموعة بيانات AudioCaps على وحدة معالجة واحدة (GPU)، وحقق أداءً يُعدّ من أفضل الأداء في مجال TTA وفقًا لمقاييس موضوعية وذاتية (مثل مسافة فريشيت). علاوةً على ذلك، يُعد AudioLDM أول نظام TTA يُمكّن من تنفيذ مجموعة متنوعة من عمليات التعديل الصوتي الموجهة بالنص (مثل نقل الأسلوب) بطريقة صفرية (zero-shot). يمكن الاطلاع على التنفيذ العملي والتطبيقات التوضيحية عبر الموقع الإلكتروني: https://audioldm.github.io.

ملف PDF المصدر عرض الكود

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي

وحدات GPU جاهزة للعمل

أفضل الأسعار

ابدأ عرض الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا

سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين

مدعوم بواسطة MailChimp

الملخص

Haohe Liu Zehua Chen Yi Yuan Xinhao Mei Xubo Liu Danilo Mandic Wenwu Wang Mark D. Plumbley

الملخص

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

HyperAI Newsletters

Haohe Liu Zehua Chen Yi Yuan Xinhao Mei Xubo Liu Danilo Mandic Wenwu Wang Mark D. Plumbley

الملخص

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

HyperAI Newsletters

Haohe Liu Zehua Chen Yi Yuan Xinhao Mei Xubo Liu Danilo Mandic Wenwu Wang Mark D. Plumbley

الملخص

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

HyperAI Newsletters

Command Palette

AudioLDM: التوليد الصوتي من النص باستخدام نماذج التمايز المتأخرة في الفضاء المتخفي

Haohe Liu Zehua Chen Yi Yuan Xinhao Mei Xubo Liu Danilo Mandic Wenwu Wang Mark D. Plumbley

الملخص

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

HyperAI Newsletters

Command Palette

AudioLDM: التوليد الصوتي من النص باستخدام نماذج التمايز المتأخرة في الفضاء المتخفي

Haohe Liu Zehua Chen Yi Yuan Xinhao Mei Xubo Liu Danilo Mandic Wenwu Wang Mark D. Plumbley

الملخص

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

HyperAI Newsletters

Command Palette

AudioLDM: التوليد الصوتي من النص باستخدام نماذج التمايز المتأخرة في الفضاء المتخفي

Haohe Liu Zehua Chen Yi Yuan Xinhao Mei Xubo Liu Danilo Mandic Wenwu Wang Mark D. Plumbley

الملخص

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

HyperAI Newsletters