15日前

Sandglasset:時間領域音声分離のための軽量な多粒度自己注意ネットワーク

Max W. Y. Lam, Jun Wang, Dan Su, Dong Yu
Sandglasset:時間領域音声分離のための軽量な多粒度自己注意ネットワーク
要約

単一チャネル音声分離(SS)モデルの先進的な手法の一つは、TasNetに基づくもので、二重パスによるセグメンテーション技術を採用しており、各層におけるセグメントサイズは常に一定である。これに対して、本研究の主な発見は、マルチグレイン(多スケール)特徴量が文脈モデリングおよび計算効率の向上に不可欠であるということである。我々は、新しい砂時計型(sandglass-shape)を特徴とする自己注意ネットワーク、すなわちSandglassetを提案する。このモデルは、大幅に小型化されたモデルサイズと計算コストで、従来の最先端(SOTA)性能を上回る成果を達成した。Sandglasset内の各ブロックを前向きに処理する際、特徴量の時間的グレインはネットワークの半分のブロックに達するまで徐々に粗くなり、その後、元の音声信号レベルに近づくにつれて次第に細かくなる。また、同じグレインを持つ特徴量間の残差接続が、ボトルネック層を通過した後の情報保持において極めて重要であることが明らかになった。実験の結果、パラメータ数がわずか230万のSandglassetは、WSJ0-2mixおよびWSJ0-3mixという2つのベンチマークSSデータセットにおいて、既存のSOTA結果と比較して、それぞれSI-SNRiスコアを0.8 dBおよび2.4 dBの絶対値向上させ、最高の性能を達成した。

Sandglasset:時間領域音声分離のための軽量な多粒度自己注意ネットワーク | 最新論文 | HyperAI超神経