2ヶ月前

TF-Locoformer: 畳み込みによる局所モデリングを備えたTransformerの音声分離および強化

Kohei Saijo; Gordon Wichern; François G. Germain; Zexu Pan; Jonathan Le Roux

要約

時間周波数（TF）領域の双路モデルは高忠実度の音声分離を達成しています。従来の最先端（SoTA）モデルの中には再帰型ニューラルネットワーク（RNN）に依存するものがありますが、この依存性は並列処理性、スケーラビリティ、および汎用性の観点でトランスフォーマー・ブロックの利点を享受できないことを意味します。純粋なトランスフォーマーに基づくアーキテクチャが他の分野で広範な成功を収めていることを考慮に入れ、本研究ではTF領域の双路モデルからRNNを排除しつつ、最先端性能を維持することに焦点を当てています。本研究では、LOcal-modeling by COnvolution（LOCO）を使用したトランスフォーマー・ベースのモデルであるTF-ロコフォーマーを提案します。このモデルは線形層ではなく畳み込み層を使用したフィードフォワード・ネットワーク（FFN）を利用することで局所情報を捉え、自己注意機構が全体的なパターンに集中できるようにしています。さらに、自己注意機構の前後に2つのこのようなFFNを配置し、局所モデリング能力を強化しています。また、TF領域の双路モデル向けに新しい正規化手法も導入しました。分離と強化データセットでの実験結果は、提案されたモデルがRNNなしのアーキテクチャで複数のベンチマークにおいて最先端またはそれ以上の性能を示すことを示しています。