التحفيظ عالي الدقة للبيانو مع استخدام الدواسات من خلال الانحدار الزمني لبداية ونهاية الملاحظات

يُعدّ التحويل الموسيقي التلقائي (AMT) مهمة تحويل التسجيلات الصوتية إلى تمثيلات رمزية. في الآونة الأخيرة، تم تطبيق الطرق القائمة على الشبكات العصبية على مسألة التحويل الموسيقي التلقائي، وحققت نتائج متميزة على مستوى الحد الأقصى للتطور. ومع ذلك، فإن العديد من الأنظمة السابقة تُقيّم فقط بدء ونهاية الملاحظات بشكل إطاري (frame-wise)، مما يحد من دقة التحويل وفقًا لحجم الخطوة بين الإطارات (frame hop size). كما أن هناك نقصًا في الأبحاث المتعلقة باستخدام استراتيجيات مختلفة لتمثيل أهداف بدء ونهاية الملاحظات أثناء التدريب. بالإضافة إلى ذلك، تُعدّ الأنظمة السابقة للتحويل الموسيقي التلقائي حساسة جدًا لعدم تزامن علامات بدء ونهاية الملاحظات في التسجيلات الصوتية. كما أن هناك قلة في الأبحاث المتعلقة بتحويل مفتاح التثبيت (sustain pedal) على مجموعات بيانات كبيرة الحجم. في هذا المقال، نقترح نظامًا للتحويل الموسيقي التلقائي عالي الدقة، يتم تدريبه على تقدير أوقات بدء ونهاية ملاحظات البيانو بدقة عالية. وفي مرحلة الاستدلال (inference)، نقترح خوارزمية لحساب أوقات بدء ونهاية ملاحظات البيانو والأحداث المرتبطة بمفتاح التثبيت بشكل تحليلي. ونُظهر أن نظامنا للتحويل الموسيقي التلقائي يتمتع بمرونة عالية تجاه عدم التزامن في علامات بدء ونهاية الملاحظات مقارنةً بالأنظمة السابقة. وحقق نظامنا مقياس F1 لبدء الملاحظات بنسبة 96.72% على مجموعة بيانات MAESTRO، متفوقًا على الأنظمة السابقة التي تعتمد على الملاحظات والإطارات والتي بلغت 94.80%. كما حقق نظامنا مقياس F1 لبدء مفتاح التثبيت بنسبة 91.86%، وهي أول نتيجة معيارية مُحققة على مجموعة بيانات MAESTRO. وقد أُطلقت الكود المصدري ونقط التحقق (checkpoints) لعملنا على الرابط التالي: https://github.com/bytedance/piano_transcription.