HyperAIHyperAI

Command Palette

Search for a command to run...

QA-MDT: متحول التفتيش المقنع الحساس للجودة لتحسين توليد الموسيقى

Chang Li* Ruoyu Wang* Lijuan Liu Jun Du† Yixuan Sun Zilu Guo Zhengrong Zhang Yuan Jiang Jianqing Gao Feng Ma

الملخص

توليد الموسيقى من النص (TTM)، والذي يحول الوصف النصي إلى صوت، يفتح آفاقًا مبتكرة لخلق الوسائط المتعددة. لتحقيق جودة عالية ومتنوعة في هذا العملية، يتطلب الأمر بيانات ذات جودة عالية وواسعة النطاق، وهي غالبًا ما تكون نادرة في المجموعات المتاحة حاليًا. تعاني معظم المجموعات المصادر المفتوحة من مشاكل مثل موجات الصوت ذات الجودة المنخفضة والتناسق المنخفض بين النص والصوت، مما يعيق تقدم نماذج توليد الموسيقى. لمعالجة هذه التحديات، نقترح نموذج تدريب جديد يركز على الجودة لتوليد موسيقى ذات جودة عالية وموسيقية من مجموعات بيانات كبيرة وغير متوازنة من حيث الجودة. بالإضافة إلى ذلك، عن طريق الاستفادة من الخصائص الفريدة في الفضاء الكامن للإشارات الموسيقية، قمنا بتكيف وتوفير نموذج تحويل التوزيع المقنع (MDT) للمهمة TTM، مما يظهر قدرته على السيطرة على الجودة وتعزيز الموسيقي. علاوة على ذلك، نقدم نهجًا ثلاثي المراحل لتكرار العناوين لمعالجة مشكلة العناوين ذات الجودة المنخفضة. أظهرت التجارب أداءً رائدًا (SOTA) على مجموعات البيانات المرجعية بما في ذلك MusicCaps و Dataset Describer Songs باستخدام المقاييس الموضوعية والذاتية. يمكن الوصول إلى عينات الصوت التوضيحية عبر الرابط https://qa-mdt.github.io/، بينما تم توفير الشفرة البرمجية والنقط الثابتة المدربة بشكل مسبق عبر الرابط https://github.com/ivcylc/OpenMusic.


بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي
وحدات GPU جاهزة للعمل
أفضل الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp