HyperAIHyperAI

Command Palette

Search for a command to run...

MT3: الترجمة الموسيقية متعددة المهام والمتابعة المتعددة

Josh Gardner Ian Simon Ethan Manilow Curtis Hawthorne Jesse Engel

الملخص

الكتابة الموسيقية التلقائية (AMT)، وهي عملية استنتاج الملاحظات الموسيقية من الصوت الخام، تعد مهمة صعبة في قلب فهم الموسيقى. على عكس تقنية التعرف التلقائي على الكلام (ASR)، التي تركز عادةً على كلمات متحدث واحد، تتطلب الكتابة الموسيقية التلقائية غالبًا كتابة عدة آلات موسيقية بشكل متزامن مع الحفاظ على المعلومات الدقيقة للنغمة والتوقيت. بالإضافة إلى ذلك، فإن العديد من مجموعات البيانات الخاصة بالكتابة الموسيقية التلقائية هي "منخفضة الموارد"، حيث يجد حتى العازفون المحترفون أن الكتابة الموسيقية أمر صعب ومُستغرِق للوقت. لذلك، ركز العمل السابق على هياكل خاصة بالمهمة، مصممة خصيصًا لآلات كل مهمة الفردية. في هذا البحث، مستوحين من النتائج الواعدة لتعلم النقل المتتابعة في معالجة اللغة الطبيعية ذات الموارد المنخفضة (NLP)، نثبت أن نموذج Transformer عام الغرض يمكنه أداء الكتابة الموسيقية التلقائية متعددة المهام، بكتابة تركيبات عشوائية من الآلات الموسيقية عبر عدة مجموعات بيانات للكتابة. نظهر أن هذا الإطار التدريبي الموحد يحقق نتائج كتابة عالية الجودة عبر مجموعة واسعة من مجموعات البيانات، مما يحسن الأداء بشكل كبير للأدوات ذات الموارد المنخفضة (مثل الجيتار) مع الحفاظ على الأداء القوي للأدوات الشائعة (مثل البيانو). وأخيرًا، عن طريق توسيع نطاق الكتابة الموسيقية التلقائية، نكشف الحاجة إلى مؤشرات تقييم أكثر اتساقًا وتوفير أفضل لمجموعات البيانات، ونقدم نقطة بداية قوية لهذا الاتجاه الجديد من الكتابة الموسيقية التلقائية متعددة المهام.


بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي
وحدات GPU جاهزة للعمل
أفضل الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp