HyperAIHyperAI

Command Palette

Search for a command to run...

Make-An-Audio: التوليد الصوتي من النص باستخدام نماذج التمايز المعززة بالمضمون

Rongjie Huang Jiawei Huang Dongchao Yang Yi Ren Luping Liu Mingze Li Zhenhui Ye Jinglin Liu Xiang Yin Zhou Zhao

الملخص

أحدث النمذجة التوليدية متعددة الوسائط على نطاق واسع إنجازات كبيرة في توليد الصور من النصوص وفي توليد الفيديو من النصوص. لكن تطبيقها على الصوت ما زال متأخراً بسبب سببين رئيسيين: نقص البيانات الكبيرة ذات الجودة العالية التي تحتوي على أزواج نصوص-صوت، وتعقيد نمذجة بيانات الصوت المستمرة الطويلة. في هذا العمل، نقترح "Make-An-Audio" باستخدام نموذج توزيع مُعزز بالمُدخلات (prompt-enhanced diffusion model) يعالج هذين الفجوات من خلال: 1) تقديم تحسين اصطناعي للمُدخلات باستخدام منهجية "الاستخلاص ثم إعادة البرمجة" (distill-then-reprogram)، مما يخفف من نقص البيانات عبر إنشاء تراكيب مفاهيم بترتيبات تفوق بكثير عدد مرات التكرار، باستخدام صوتيات خالية من اللغة؛ 2) الاستفادة من مُشفّر الطيفية (spectrogram autoencoder) لتوقع تمثيلات صوتية ذاتية التدريب (self-supervised) بدلًا من موجات الصوت. وباستخدام تمثيلات التدريب المسبق المتميزة للغة والصوت (CLAP) المتميزة بالمتانة، يحقق "Make-An-Audio" نتائج رائدة على مستوى الحد الأقصى في التقييمات الموضوعية والذاتية. علاوةً على ذلك، نعرض قدرته على التحكم والتعميم في المهام من نوع "X إلى صوت" (X-to-Audio) ضمن مبدأ "لا تُترك وسائط خلفًا" (No Modality Left Behind)، لأول مرة يُفتح بذلك القدرة على توليد صوتيات عالية الدقة وعالية الولاء بناءً على إدخال وسائط محددة من المستخدم. يمكن الاستماع إلى عينات صوتية من المشروع عبر الرابط: https://Text-to-Audio.github.io


بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي
وحدات GPU جاهزة للعمل
أفضل الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp
Make-An-Audio: التوليد الصوتي من النص باستخدام نماذج التمايز المعززة بالمضمون | مستندات | HyperAI