YourMT3+: الترجمة الموسيقية متعددة الآلات باستخدام هياكل ترانسفورمر محسنة وزيادة الجذوع عبر المجموعات البيانات

تهدف عملية الترجمة الموسيقية متعددة الآلات إلى تحويل التسجيلات الموسيقية البولي فونية إلى نوتات موسيقية مخصصة لكل آلة. يعتبر هذا المهمة صعبة في النمذجة لأنه يتطلب تحديد عدة آلات بشكل متزامن وكتابة نغماتها وتوقيتها الدقيق، كما أن نقص البيانات المصحوبة بالشروح الكاملة يزيد من صعوبات التدريب. يقدم هذا البحث YourMT3+، وهو مجموعة من النماذج لتحسين عملية الترجمة الموسيقية متعددة الآلات اعتمادًا على أسلوب تشفير الرموز اللغوية الحديث في MT3. نعزز مُشفِّره (الإنكودر) بتبني محول الانتباه الهرمي في المجال الزمني-الترددي ودمج خليط من الخبراء. للتعامل مع قيود البيانات، نقدم طريقة تشفير متعددة القنوات جديدة للتدريب باستخدام الشروح غير الكاملة ونشير إلى زيادة داخل الجذع وعبر الجذوع لخلط المجموعات البيانات. تظهر تجاربنا قدرات مباشرة على كتابة النغمات الصوتية، مما يلغي الحاجة إلى معالجات الفصل الصوتي المسبقة. تُظهر مقاييس الأداء عبر عشرة مجموعات بيانات عامة تنافسية نماذجنا أو تفوقها على النماذج الموجودة حاليًا في مجال الكتابة الموسيقية. يسلط الاختبار الإضافي على تسجيلات الموسيقى الشعبية الضوء على حدود النماذج الحالية. يمكن الحصول على الكود والبيانات القابلين لإعادة الإنتاج مع العروض التقديمية من الرابط \url{https://github.com/mimbres/YourMT3}.