الترميز التلقائي للبيانو باستخدام المحول الترددي الزماني الهرمي

أخذ الارتباطات الطيفية والزمنية طويلة المدى بعين الاعتبار أمر ضروري للترميز التلقائي للبيانو. وهذا مفيد بشكل خاص عند تحديد بداية ونهاية كل نغمة بدقة في المحتوى متعدد الأصوات للبيانو. في هذه الحالة، يمكننا الاعتماد على قدرة آلية الانتباه الذاتي في النماذج التحويلية (Transformers) على التقاط هذه الارتباطات طويلة المدى على محور التردد ومحور الزمن. في هذا البحث، نقترح hFT-Transformer، وهو طريقة ترميز موسيقي تلقائي تعتمد على هندسة تحويلية متعددة المستويات في التردد والزمن. يشمل المستوى الأول كتلة تجميعية (Convolutional Block) على محور الزمن، ومحلل تحويلي (Transformer Encoder) على محور التردد، ومحول تحويلي (Transformer Decoder) يقوم بتحويل البُعد على محور التردد. يتم بعد ذلك إدخال الإخراج إلى المستوى الثاني، الذي يتكون من محلل تحويلي آخر على محور الزمن. قمنا بتقييم طريقتنا باستخدام مجموعتي البيانات الشهيرتين MAPS وMAESTRO v3.0.0، وقد أظهرت أدائها الرائد بين جميع مقاييس F1 لتقدير الإطارات (Frame)، والنغمات (Note)، والنغمات مع نهاية الصوت (Note with Offset)، والنغمات مع نهاية الصوت وسرعة الصوت (Note with Offset and Velocity).