MT3: الترجمة الموسيقية متعددة المهام والمتابعة المتعددة

الكتابة الموسيقية التلقائية (AMT)، وهي عملية استنتاج الملاحظات الموسيقية من الصوت الخام، تعد مهمة صعبة في قلب فهم الموسيقى. على عكس تقنية التعرف التلقائي على الكلام (ASR)، التي تركز عادةً على كلمات متحدث واحد، تتطلب الكتابة الموسيقية التلقائية غالبًا كتابة عدة آلات موسيقية بشكل متزامن مع الحفاظ على المعلومات الدقيقة للنغمة والتوقيت. بالإضافة إلى ذلك، فإن العديد من مجموعات البيانات الخاصة بالكتابة الموسيقية التلقائية هي "منخفضة الموارد"، حيث يجد حتى العازفون المحترفون أن الكتابة الموسيقية أمر صعب ومُستغرِق للوقت. لذلك، ركز العمل السابق على هياكل خاصة بالمهمة، مصممة خصيصًا لآلات كل مهمة الفردية. في هذا البحث، مستوحين من النتائج الواعدة لتعلم النقل المتتابعة في معالجة اللغة الطبيعية ذات الموارد المنخفضة (NLP)، نثبت أن نموذج Transformer عام الغرض يمكنه أداء الكتابة الموسيقية التلقائية متعددة المهام، بكتابة تركيبات عشوائية من الآلات الموسيقية عبر عدة مجموعات بيانات للكتابة. نظهر أن هذا الإطار التدريبي الموحد يحقق نتائج كتابة عالية الجودة عبر مجموعة واسعة من مجموعات البيانات، مما يحسن الأداء بشكل كبير للأدوات ذات الموارد المنخفضة (مثل الجيتار) مع الحفاظ على الأداء القوي للأدوات الشائعة (مثل البيانو). وأخيرًا، عن طريق توسيع نطاق الكتابة الموسيقية التلقائية، نكشف الحاجة إلى مؤشرات تقييم أكثر اتساقًا وتوفير أفضل لمجموعات البيانات، ونقدم نقطة بداية قوية لهذا الاتجاه الجديد من الكتابة الموسيقية التلقائية متعددة المهام.