HyperAIHyperAI

Command Palette

Search for a command to run...

TF-Locoformer: 畳み込みによる局所モデリングを備えたTransformerの音声分離および強化

Kohei Saijo Gordon Wichern François G. Germain Zexu Pan Jonathan Le Roux

概要

時間周波数(TF)領域の双路モデルは高忠実度の音声分離を達成しています。従来の最先端(SoTA)モデルの中には再帰型ニューラルネットワーク(RNN)に依存するものがありますが、この依存性は並列処理性、スケーラビリティ、および汎用性の観点でトランスフォーマー・ブロックの利点を享受できないことを意味します。純粋なトランスフォーマーに基づくアーキテクチャが他の分野で広範な成功を収めていることを考慮に入れ、本研究ではTF領域の双路モデルからRNNを排除しつつ、最先端性能を維持することに焦点を当てています。本研究では、LOcal-modeling by COnvolution(LOCO)を使用したトランスフォーマー・ベースのモデルであるTF-ロコフォーマーを提案します。このモデルは線形層ではなく畳み込み層を使用したフィードフォワード・ネットワーク(FFN)を利用することで局所情報を捉え、自己注意機構が全体的なパターンに集中できるようにしています。さらに、自己注意機構の前後に2つのこのようなFFNを配置し、局所モデリング能力を強化しています。また、TF領域の双路モデル向けに新しい正規化手法も導入しました。分離と強化データセットでの実験結果は、提案されたモデルがRNNなしのアーキテクチャで複数のベンチマークにおいて最先端またはそれ以上の性能を示すことを示しています。


AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助
すぐに使える GPU
最適な料金体系

HyperAI Newsletters

最新情報を購読する
北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします
メール配信サービスは MailChimp によって提供されています
TF-Locoformer: 畳み込みによる局所モデリングを備えたTransformerの音声分離および強化 | 記事 | HyperAI超神経