8ヶ月前

音声および音声処理

ディープラーニング

アプローチ／フレームワーク

オーディオ

Nikolai Lund Kühne Jan Østergaard Jesper Jensen Zheng-Hua Tan

概要

注意メカニズムを用いたアーキテクチャ（例：コンフォーマー）は音声強化において優れた性能を発揮していますが、入力シーケンスの長さに対するスケーラビリティなどの課題に直面しています。一方、最近提案された拡張型長期短期記憶（Extended Long Short-Term Memory: xLSTM）アーキテクチャは線形スケーラビリティを提供します。しかし、xLSTMを用いたモデルは音声強化分野でまだ十分に研究されていません。本論文では、xLSTM-SENetと呼ばれる最初の単一チャンネル音声強化システムを紹介します。比較分析の結果、xLSTMだけでなくLSTMも、VoiceBank+Demandデータセットにおける音声強化において、さまざまなモデルサイズで最先端のMambaおよびコンフォーマーを基にしたシステムと同等かそれ以上の性能を示すことが明らかになりました。アブレーションスタディを通じて、指数関数的なゲーティングや双方向性など、その効果性に寄与する重要な設計選択肢が特定されました。最良のxLSTMベースのモデルであるxLSTM-SENet2は、VoiceBank+DEMANDデータセットにおいて同程度の複雑さを持つ最先端のMambaおよびコンフォーマーを基にしたシステムよりも優れた性能を発揮しました。

AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助

すぐに使える GPU

最適な料金体系

開始する料金を見る

HyperAI Newsletters

最新情報を購読する

北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします

メール配信サービスは MailChimp によって提供されています

8ヶ月前

音声および音声処理

ディープラーニング

アプローチ／フレームワーク

オーディオ

Nikolai Lund Kühne Jan Østergaard Jesper Jensen Zheng-Hua Tan

概要

注意メカニズムを用いたアーキテクチャ（例：コンフォーマー）は音声強化において優れた性能を発揮していますが、入力シーケンスの長さに対するスケーラビリティなどの課題に直面しています。一方、最近提案された拡張型長期短期記憶（Extended Long Short-Term Memory: xLSTM）アーキテクチャは線形スケーラビリティを提供します。しかし、xLSTMを用いたモデルは音声強化分野でまだ十分に研究されていません。本論文では、xLSTM-SENetと呼ばれる最初の単一チャンネル音声強化システムを紹介します。比較分析の結果、xLSTMだけでなくLSTMも、VoiceBank+Demandデータセットにおける音声強化において、さまざまなモデルサイズで最先端のMambaおよびコンフォーマーを基にしたシステムと同等かそれ以上の性能を示すことが明らかになりました。アブレーションスタディを通じて、指数関数的なゲーティングや双方向性など、その効果性に寄与する重要な設計選択肢が特定されました。最良のxLSTMベースのモデルであるxLSTM-SENet2は、VoiceBank+DEMANDデータセットにおいて同程度の複雑さを持つ最先端のMambaおよびコンフォーマーを基にしたシステムよりも優れた性能を発揮しました。

AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助

すぐに使える GPU

最適な料金体系

開始する料金を見る

HyperAI Newsletters

最新情報を購読する

北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします

メール配信サービスは MailChimp によって提供されています

xLSTM-SENet: 単チャンネル音声強化用のxLSTM | 記事 | HyperAI超神経