
要約
音源分離(Music Source Separation, MSS)において自然に浮かび上がる問いは、長距離の文脈情報を用いることが有効であるのか、それとも局所的な音響特徴のみで十分なのかである。他の分野では、アテンションをベースとするTransformerモデルが、長文のシーケンスにわたる情報を統合する能力を示している。本研究では、Hybrid Demucsを基盤とし、時間軸と周波数軸の両方を扱うバイ-U-Netアーキテクチャを採用した「ハイブリッド・トランスフォーマー・デミュース(HT Demucs)」を提案する。このモデルの中心部では、従来の畳み込み層を、同一ドメイン内での自己アテンション(self-attention)と異なるドメイン間でのクロスアテンション(cross-attention)を用いるクロスドメイン・トランスフォーマー・エンコーダーに置き換えた。MUSDBデータセットのみで学習した場合、性能は芳しくなかったが、追加で800曲のデータを用いて学習させた場合、Hybrid Demucs(同じデータで学習)よりもSDRで0.45 dB優れた性能を達成した。さらに、スパースアテンションカーネルを用いて受容場を拡張し、各音源ごとのファインチューニングを施すことで、追加学習データを用いた場合、MUSDBベンチマークにおいて最先端の結果を達成し、SDRは9.20 dBを記録した。