نموذج خفيف الوزن مستقل عن الأدوات لتحويل الملاحظات المتعددة التوقيت وتقدير الترددات المتعددة

تم الاعتراف بتحويل الموسيقى التلقائي (AMT) كتقنية أساسية ذات تطبيقات واسعة النطاق. وبسبب تعقيد المهمة، تم عادةً تسجيل أفضل النتائج بالنسبة لأنظمة تركز على ظروف محددة، فمثلاً، تُظهر الأنظمة المخصصة لأدوات موسيقية معينة نتائج أفضل مقارنةً بالطرق العامة التي لا تميز بين الأدوات. وبالمثل، يمكن تحقيق دقة أعلى عند تقدير قيم التردد الأساسي $f_0$ على مستوى الإطارات فقط، مع تجاهل كشف حدث الملاحظة الصعبة. وعلى الرغم من دقتها العالية، غالبًا ما تُعد هذه الأنظمة المتخصصة غير قابلة للتطبيق في البيئات الواقعية، حيث تمنع قيود التخزين والشبكة استخدام عدة نماذج متخصصة، بينما تحد قيود الذاكرة والوقت التشغيلي من تعقيد هذه النماذج. في هذه الورقة، نقترح شبكة عصبية خفيفة الوزن لتحويل الأدوات الموسيقية، تدعم الإخراج المتعدد الأصوات (polyphonic) وتتميّز بالقدرة على التعميم على طيف واسع من الأدوات (بما في ذلك الأصوات البشرية). تم تدريب نموذجنا على التنبؤ المشترك بحدث البدء على مستوى الإطارات، وقيم التردد المتعددة (multipitch)، وتنشيطات الملاحظات، ونُظهر تجريبيًا أن هذا الهيكل متعدد المخرجات يُحسّن من دقة الملاحظات على مستوى الإطار. وعلى الرغم من بساطته، تُظهر نتائج المعايرة أن أداء نظامنا في تقدير الملاحظات أفضل بشكل ملحوظ من نموذج مرجعي مماثل، كما أن دقته على مستوى الإطار تقل فقط قليلاً عن نماذج AMT المتقدمة المتخصصة. نأمل من خلال هذا العمل أن نشجع المجتمع على مواصلة البحوث في مجالات تحويل الموسيقى ذات الموارد المحدودة والمستقلة عن الأدوات الموسيقية.