Music Transformer

La musique s'appuie fortement sur la répétition pour construire sa structure et son sens. Les références à soi-même se produisent à différentes échelles temporelles, allant des motifs aux phrases jusqu'à la réutilisation de sections entières de musique, comme dans les pièces structurées en ABA. Le Transformer (Vaswani et al., 2017), un modèle de séquence basé sur l'auto-attention, a obtenu des résultats convaincants dans de nombreuses tâches de génération nécessitant le maintien d'une cohérence à long terme. Cela suggère que l'auto-attention pourrait également être bien adaptée à la modélisation musicale. Cependant, dans la composition et l'interprétation musicales, le temps relatif est d'une importance cruciale. Les approches existantes pour représenter les informations positionnelles relatives dans le Transformer modulent l'attention en fonction de la distance paire par paire (Shaw et al., 2018). Cette méthode est peu pratique pour les séquences longues telles que les compositions musicales, car leur complexité mémoire pour les informations relatives intermédiaires est quadratique par rapport à la longueur de la séquence. Nous proposons un algorithme qui réduit leur exigence mémoire intermédiaire à une linéarité par rapport à la longueur de la séquence. Cela nous permet de démontrer qu'un Transformer avec notre mécanisme d'attention relative modifié peut générer des compositions d'une minute (des milliers d'étapes, quatre fois plus long que ce qui a été modélisé par Oore et al., 2018) avec une structure convaincante, créer des prolongements qui développent cohérentement un motif donné, et dans un cadre seq2seq générer des accompagnements conditionnés par des mélodies. Nous évaluons le Transformer avec notre mécanisme d'attention relative sur deux jeux de données, les Chœurs de JSB et Piano-e-Competition, et obtenons des résultats d'état de l'art sur ce dernier.请注意,您的要求中提到“使译文符合韩语表达习惯”,但您需要的是法语翻译。因此,我已根据法语的表达习惯进行了翻译。如果您有其他具体要求,请告知。