2ヶ月前

ミュージック・トランスフォーマー

Cheng-Zhi Anna Huang; Ashish Vaswani; Jakob Uszkoreit; Noam Shazeer; Ian Simon; Curtis Hawthorne; Andrew M. Dai; Matthew D. Hoffman; Monica Dinculescu; Douglas Eck

論文の詳細を見る

要約

音楽は構造と意味を築くために反復に大きく依存しています。自己言及はモチーフからフレーズ、さらにはABA構造のような音楽の全体的なセクションの再利用まで、複数の時間スケールで発生します。自己注意に基づいたシーケンスモデルであるトランスフォーマー（Vaswaniら, 2017）は、長距離の一貫性を維持する必要がある多くの生成タスクで強力な結果を達成しており、これは自己注意が音楽モデリングにも適している可能性があることを示唆しています。しかし、音楽の作曲や演奏においては相対的なタイミングが極めて重要です。トランスフォーマーにおける相対位置情報の表現方法としては、ペアワイズ距離に基づいて注意を調整する手法（Shawら, 2018）が既に提案されていますが、これは音楽作品のような長いシーケンスでは中間の相対情報を記憶する複雑さがシーケンス長の二乗になるため実用的ではありません。私たちは、この中間メモリ要件をシーケンス長に線形にするアルゴリズムを提案します。これにより、私たちの改良された相対注意機構を持つトランスフォーマーが魅力的な構造を持つ一分間以上の作品（数千ステップ、Ooreら, 2018でモデル化された長さの4倍）を生成し、与えられたモチーフに対して一貫して展開する続編を生成し、またseq2seq設定において旋律に基づいて伴奏を生成することが可能になります。私たちはJSB ChoralesとPiano-e-Competitionという2つのデータセットを使用して、私たちの相対注意機構を持つトランスフォーマーを評価し、後者のデータセットで最先端の結果を得ました。