
要約
ガイデッドソース分離(GSS)は、事前に計算された話者活動と盲目的ソース分離を用いて、重複した音声信号のフロントエンド強化を行うターゲット話者抽出手法の一種です。この手法は初めてCHiME-5チャレンジで提案され、遅延和ビームフォーミングベースラインに対して大幅な改善をもたらしました。しかし、その長所にもかかわらず、主に高い計算時間のために会議転写ベンチマークでの採用が限定的でした。本論文では、現代のGPUベースのパイプライン(周波数とセグメントのバッチ処理を含む)の力を活用して、CPUベースの推論よりも300倍高速化したGSSの改良実装について説明します。改良された推論時間により、GSSアルゴリズムのいくつかのパラメータ(コンテキスト持続時間、チャンネル数、ノイズクラスなど)に対する詳細なアブレーション研究を行うことができます。私たちはLibriCSS、AMI、AliMeetingなどの人気のある会議ベンチマークにおける話者属性付き転写のエンドツーエンド再現可能なパイプラインを提供しています。私たちのコードとレシピは公開されています: https://github.com/desh2608/gss.