15日前

騒音混在リバーバント音響環境下におけるモノラル音声分離のための時系列ドメインConformerモデル

William Ravenscroft, Stefan Goetze, Thomas Hain
騒音混在リバーバント音響環境下におけるモノラル音声分離のための時系列ドメインConformerモデル
要約

スピーチ分離は、マルチスピーカー技術の研究者にとって重要なテーマの一つである。畳み込み拡張型トランスフォーマー(Conformers)は、多数の音声処理タスクにおいて優れた性能を発揮しているが、スピーチ分離における研究はまだ十分に進んでいない。近年の最先端(SOTA)分離モデルの多くは、時間領域音声分離ネットワーク(TasNet)に基づいている。多くの成功したモデルでは、局所情報とグローバル情報を逐次処理する二重パス(DP)ネットワークが活用されている。時間領域Conformers(TD-Conformers)は、局所的およびグローバルな文脈を逐次処理する点でDPアプローチに類似しているが、時間計算量の関数が異なる。実用的な短い信号長を想定した場合、特徴次元を一定に保った状態でConformersがより計算効率が良いことが示された。さらに、計算効率を向上させるために、サブサンプリング層の導入が提案されている。最良のTD-Conformerは、WHAMRとWSJ0-2Mixのベンチマークにおいて、それぞれ14.6 dBおよび21.2 dBのSISDR向上を達成した。

騒音混在リバーバント音響環境下におけるモノラル音声分離のための時系列ドメインConformerモデル | 最新論文 | HyperAI超神経