HyperAIHyperAI
منذ 2 أشهر

QA-MDT: متحول التفتيش المقنع الحساس للجودة لتحسين توليد الموسيقى

Li, Chang ; Wang, Ruoyu ; Liu, Lijuan ; Du, Jun ; Sun, Yixuan ; Guo, Zilu ; Zhang, Zhenrong ; Jiang, Yuan ; Gao, Jianqing ; Ma, Feng
QA-MDT: متحول التفتيش المقنع الحساس للجودة لتحسين توليد الموسيقى
الملخص

توليد الموسيقى من النص (TTM)، والذي يحول الوصف النصي إلى صوت، يفتح آفاقًا مبتكرة لخلق الوسائط المتعددة. لتحقيق جودة عالية ومتنوعة في هذا العملية، يتطلب الأمر بيانات ذات جودة عالية وواسعة النطاق، وهي غالبًا ما تكون نادرة في المجموعات المتاحة حاليًا. تعاني معظم المجموعات المصادر المفتوحة من مشاكل مثل موجات الصوت ذات الجودة المنخفضة والتناسق المنخفض بين النص والصوت، مما يعيق تقدم نماذج توليد الموسيقى. لمعالجة هذه التحديات، نقترح نموذج تدريب جديد يركز على الجودة لتوليد موسيقى ذات جودة عالية وموسيقية من مجموعات بيانات كبيرة وغير متوازنة من حيث الجودة. بالإضافة إلى ذلك، عن طريق الاستفادة من الخصائص الفريدة في الفضاء الكامن للإشارات الموسيقية، قمنا بتكيف وتوفير نموذج تحويل التوزيع المقنع (MDT) للمهمة TTM، مما يظهر قدرته على السيطرة على الجودة وتعزيز الموسيقي. علاوة على ذلك، نقدم نهجًا ثلاثي المراحل لتكرار العناوين لمعالجة مشكلة العناوين ذات الجودة المنخفضة. أظهرت التجارب أداءً رائدًا (SOTA) على مجموعات البيانات المرجعية بما في ذلك MusicCaps و Dataset Describer Songs باستخدام المقاييس الموضوعية والذاتية. يمكن الوصول إلى عينات الصوت التوضيحية عبر الرابط https://qa-mdt.github.io/، بينما تم توفير الشفرة البرمجية والنقط الثابتة المدربة بشكل مسبق عبر الرابط https://github.com/ivcylc/OpenMusic.

QA-MDT: متحول التفتيش المقنع الحساس للجودة لتحسين توليد الموسيقى | أحدث الأوراق البحثية | HyperAI