HyperAIHyperAI
vor 15 Tagen

Symphoniegenerierung mit permutationsinvariantem Sprachmodell

Jiafeng Liu, Yuanliang Dong, Zehua Cheng, Xinran Zhang, Xiaobing Li, Feng Yu, Maosong Sun
Symphoniegenerierung mit permutationsinvariantem Sprachmodell
Abstract

In dieser Arbeit stellen wir ein permutationsinvariantes Sprachmodell, SymphonyNet, als Lösung für die symbolische Symphonie-Musikgenerierung vor. Wir führen eine neuartige Darstellung für Symphonie-Musik ein, die Multi-track Multi-instrument Repeatable (MMR)-Darstellung, und modellieren die Musiksequenz mittels eines auf Transformer basierenden autoregressiven Sprachmodells mit spezifischer 3-D-Positionsembedding. Um das Problem der Längenüberlauf bei der Modellierung besonders langer Symphonie-Tokens zu überwinden, schlagen wir einen modifizierten Byte-Pair-Encoding-Algorithmus (Music BPE) für Musik-Tokens vor und führen eine neuartige lineare Transformer-Decoder-Architektur als Grundlage ein. Gleichzeitig trainieren wir den Decoder, um automatische Orchestrierung als gemeinsame Aufgabe zu erlernen, indem wir Instrumenteninformationen aus der Eingabe maskieren. Außerdem stellen wir einen großskaligen symbolischen Symphonie-Datensatz vor, um die Forschung in der Symphonie-Generierung voranzutreiben. Empirische Ergebnisse zeigen, dass der vorgeschlagene Ansatz kohärente, neue, komplexe und harmonische Symphonien generieren kann und somit eine wegweisende Lösung für die Generierung mehrspuriger, mehrinstrumentaler symbolischer Musik darstellt.