YourMT3+: Mehrinstrumentale Musiktranskription mit erweiterten Transformer-Architekturen und Cross-Datensatz-Stem-Augmentierung

Die Mehrinstrumententranskription zielt darauf ab, polyphone Musikaufnahmen in Notenblätter zu konvertieren, die jedem Instrument zugeordnet sind. Diese Aufgabe ist für Modelle herausfordernd, da sie gleichzeitig die Identifizierung mehrerer Instrumente und die Transkription ihrer Tonhöhe und genauen Zeitabläufe erfordert. Zudem vergrößern der Mangel an vollständig annotierten Daten die Schwierigkeiten beim Training. In dieser Arbeit stellen wir YourMT3+ vor, eine Suite von Modellen zur verbesserten Mehrinstrumententranskription, basierend auf dem jüngsten Ansatz des Sprachtoken-Decodings von MT3. Wir verbessern dessen Encoder durch die Einführung eines hierarchischen Attention-Transformers im Zeit-Frequenz-Bereich und die Integration einer Expertenmischung (Mixture of Experts). Um Datenlimitierungen zu bewältigen, führen wir eine neue Methode des multikanaligen Decodings ein, die es ermöglicht, mit unvollständigen Annotationen zu trainieren, und schlagen Intra- und Cross-Stem-Augmentierung für das Datensatz-Mixing vor. Unsere Experimente zeigen direkte Vokaltranskriptionsfähigkeiten, wodurch Vorkomponenten zur Stimmen-Trennung entbehrlich werden. Benchmarks über zehn öffentliche Datensätze belegen die Wettbewerbsfähigkeit oder Überlegenheit unserer Modelle gegenüber bestehenden Transkriptionsmodellen. Weitere Tests an Popmusikaufnahmen verdeutlichen jedoch auch die Grenzen der aktuellen Modelle. Vollständig reproduzierbarer Code und Datensätze sind zusammen mit Demos unter \url{https://github.com/mimbres/YourMT3} verfügbar.