MossFormer:畳み込み補強型結合自己注意機構を備えたゲート付き単一ヘッドTransformerを用いたモノラル音声分離の性能限界の押し上げ

Transformerベースのモデルは、モノラル音声分離において顕著な性能向上をもたらした。しかし、最近提案された上限値(upper bound)と比較すると、依然として性能ギャップが存在する。現在の二パス型Transformerモデルの主な限界は、長距離の要素間相互作用および局所的な特徴パターンの効率的なモデリングが困難である点にある。本研究では、畳み込みを補完する結合型単一ヘッド自己注意機構を備えたゲート付き単一ヘッドTransformerアーキテクチャを提案し、それを「MossFormer」(Monaural Speech Separation Transformer)と命名する。このアーキテクチャにより、二パス構造におけるチャンク間の間接的な要素相互作用を効果的に解決できる。MossFormerは、局所的なチャンクに対して完全計算型の自己注意を実行するとともに、全系列に対して線形化された低コストの自己注意を同時に処理する、結合型の局所・グローバル自己注意構造を採用している。この結合型注意機構により、MossFormerは全系列における要素間相互作用を直接的に実現可能となる。さらに、簡略化された単一ヘッド自己注意と強力な注意ゲート機構を組み合わせることで、長距離の特徴モデリングを効果的に実現している。また、局所的な位置依存パターンのモデリングを補強するため、畳み込み層をMossFormerに導入している。その結果、MossFormerは従来のモデルを大きく上回り、WSJ0-2/3mixおよびWHAM!/WHAMR!ベンチマークにおいて最先端の性能を達成した。特に、WSJ0-3mixにおいてはSI-SDRiの上限値21.2 dBを達成し、WSJ0-2mixでは上限値23.1 dBに対してわずか0.3 dBの差にとどまっている。