2ヶ月前
階層的な周波数-時間変換器を用いた自動ピアノ転写
Keisuke Toyama; Taketo Akama; Yukara Ikemiya; Yuhta Takida; Wei-Hsiang Liao; Yuki Mitsufuji

要約
長期的なスペクトル依存関係と時間依存関係を考慮することは、自動ピアノ転写において不可欠です。これは特に、ポリフォニックなピアノコンテンツにおける各音符の正確な発音時刻(オンセット)と終了時刻(オフセット)を決定する際に役立ちます。本研究では、これらの長期的な依存関係を周波数軸と時間軸で捉える能力を持つ自己注意機構(self-attention mechanism)を活用し、hFT-Transformerという新しい自動音楽転写手法を提案します。この手法は、2レベルの階層的な周波数-時間トランスフォーマー構造を使用しています。第1階層には、時間軸上の畳み込みブロック、周波数軸上のトランスフォーマーエンコーダー、および周波数軸の次元変換を行うトランスフォーマーデコーダーが含まれています。その出力は第2階層に供給され、ここでは時間軸上の別のトランスフォーマーエンコーダーが使用されます。我々は広く使用されているMAPSおよびMAESTRO v3.0.0データセットを用いて本手法を評価しました。その結果、フレーム単位の推定、音符単位の推定、オフセット付き音符単位の推定、およびオフセットと速度付き音符単位の推定に関するすべてのF1スコア指標において最先端の性能を示しました。