HyperAIHyperAI
vor 2 Monaten

Musik-Transformer

Cheng-Zhi Anna Huang; Ashish Vaswani; Jakob Uszkoreit; Noam Shazeer; Ian Simon; Curtis Hawthorne; Andrew M. Dai; Matthew D. Hoffman; Monica Dinculescu; Douglas Eck
Musik-Transformer
Abstract

Musik stützt sich stark auf Wiederholungen, um Struktur und Bedeutung aufzubauen. Selbstreferenz tritt auf verschiedenen Zeitskalen auf, von Motiven über Phrasen bis hin zur Wiederverwendung ganzer Musikabschnitte, wie in Stücken mit ABA-Struktur. Das Transformer-Modell (Vaswani et al., 2017), das auf Selbstaufmerksamkeit basiert, hat in vielen Generierungsaufgaben, die eine langfristige Kohärenz erfordern, beeindruckende Ergebnisse erzielt. Dies deutet darauf hin, dass Selbstaufmerksamkeit auch für die Modellierung von Musik geeignet sein könnte. In der musikalischen Komposition und Aufführung ist jedoch die relative Zeitabstimmung von entscheidender Bedeutung. Bestehende Ansätze zur Darstellung relativer Positionsinformationen im Transformer modulieren die Aufmerksamkeit basierend auf paarweiser Distanz (Shaw et al., 2018). Dies ist für lange Sequenzen wie musikalische Kompositionen unpraktisch, da ihre Speicherkomplexität für die Zwischeninformationen quadratisch in der Sequenzlänge ist. Wir schlagen einen Algorithmus vor, der ihren Zwischenspeicherbedarf linear in der Sequenzlänge reduziert. Dies ermöglicht es uns zu zeigen, dass ein Transformer mit unserem modifizierten relativen Aufmerksamkeitsmechanismus Minutenlange Kompositionen (Tausende von Schritten, viermal so lang wie in Oore et al., 2018 modelliert) mit überzeugender Struktur generieren kann, Fortsetzungen erstellen kann, die kohärent ein gegebenes Motiv weiter ausbauen, und in einem seq2seq-Setup Begleitstimmen unter Berücksichtigung von Melodien generieren kann. Wir evaluieren den Transformer mit unserem relativen Aufmerksamkeitsmechanismus anhand zweier Datensätze: JSB Chorales und Piano-e-Competition, und erhalten dabei state-of-the-art-Ergebnisse beim letzteren.请注意,"state-of-the-art" 是一个在科技和学术领域中常用的英文术语,通常直接被引用到其他语言中,因此在这里也保留了英文形式。如果需要完全德语化的表述,可以替换为 "standardsicherstellend".

Musik-Transformer | Neueste Forschungsarbeiten | HyperAI