16日前

順列不変言語モデルを用いたシンフォニー生成

Jiafeng Liu, Yuanliang Dong, Zehua Cheng, Xinran Zhang, Xiaobing Li, Feng Yu, Maosong Sun
順列不変言語モデルを用いたシンフォニー生成
要約

本研究では、記号的シンフォニー音楽生成のための解決策として、順列不変な言語モデル「SymphonyNet」を提案する。我々は、シンフォニック音楽のための新規なマルチトラック・マルチインストルメント再利用可能(MMR: Multi-track Multi-instrument Repeatable)表現を提案し、3次元の特徴的な位置埋め込みを備えたTransformerベースの自己回帰型言語モデルを用いて音楽系列をモデル化する。長大なシンフォニー・トークンを扱う際の長さオーバーフロー問題を克服するため、音楽トークン向けに改良されたバイトペア符号化アルゴリズム(Music BPE)を提案するとともに、新たな線形Transformerデコーダー構造を採用してモデルの基盤とする。さらに、入力からインストルメント情報をマスクすることで、自動オーケストレーションを同時学習タスクとしてデコーダーに学習させる手法を導入する。併せて、シンフォニー音楽生成研究の進展を目的として、大規模な記号的シンフォニーデータセットを構築した。実証結果から、提案手法が一貫性があり、新規性・複雑性・調和性を備えたシンフォニー音楽を生成できることを示した。これは、マルチトラック・マルチインストルメント記号音楽生成における先駆的なソリューションとしての可能性を示している。