
要約
主流の音声分離モデルは、再帰型または畳み込み型ニューラルネットワークを基盤としており、文脈に依存して音声系列を間接的にモデル化している。たとえば、再帰型ニューラルネットワークでは情報が多数の中間状態を経由して伝達されるため、最適な分離性能に至らない場合がある。本論文では、エンド・トゥ・エンド音声分離を実現するための二重パス変換器ネットワーク(DPTNet)を提案する。本手法は、音声系列のモデル化において直接的な文脈認識を導入することで、従来の間接的な依存関係のモデル化を改善する。改良された変換器により、音声系列内の要素同士が直接相互作用可能となり、直接的な文脈認識に基づく音声系列のモデリングが可能となる。本研究で提案する改良型変換器は、位置符号化(positional encoding)を用いずに、元の変換器に再帰型ニューラルネットワークを組み込むことで、音声系列の順序情報を学習する。さらに、二重パス構造により、極めて長い音声系列のモデリングにおいても効率的な性能を発揮する。標準データセットを用いた広範な実験の結果、本手法は既存の最先端技術を上回り、公開データコーパス「WSj0-2mix」において20.6 dBのSDR(信号対雑音比)を達成した。