15日前
Transformerデコーダーに基づくアトラクタを用いた未知数話者分離の性能向上
Younglo Lee, Shukjae Choi, Byeong-Yeol Kim, Zhong-Qiu Wang, Shinji Watanabe

要約
本研究では、話者数が未知である音声混合信号を分離するための新しい音声分離モデルを提案する。本モデルは、以下の3つの構成要素を段階的に積み重ねた構造を採用している。1)スペクトロ時系列パターンをモデル化可能な二重パス処理ブロック、2)話者数が未知である状況に対応可能なTransformerデコーダベースのアトラクタ(TDA)計算モジュール、3)話者間関係をモデル化可能な三重パス処理ブロックである。固定された少数の学習済み話者クエリと、二重パスブロックによって生成された混合信号埋め込み(mixture embedding)を入力として、TDAはこれらのクエリ間の関係性を推定し、各話者に対応するアトラクタベクトルを生成する。生成されたアトラクタは、特徴量ごとの線形調制(feature-wise linear modulation)を用いて混合信号埋め込みと結合され、話者次元が導入される。その後、TDAによって生成された話者情報を条件付けた混合信号埋め込みが、最終的な三重パスブロックへと入力される。この三重パスブロックは、二重パスブロックに加えて、話者間処理に特化した追加パスを備えており、話者間関係の表現能力を強化する。提案手法は、文献で報告された既存の最良手法を上回り、2話者混合(WSJ0-2)および3話者混合(3mix)において、それぞれ24.0 dBおよび23.7 dBのSI-SDR改善(SI-SDRi)を達成した。なお、1つのモデルで2話者および3話者混合信号の分離を学習するという設定下でも、高い性能を発揮した。さらに、本モデルは最大5話者までの音源数の推定および混合信号分離においても、優れた性能と汎化能力を示した。