6ヶ月前

音声および音声処理

畳み込みニューラルネットワーク

アプローチ／フレームワーク

オーディオ

Shengkui Zhao Yukun Ma Chongjia Ni Chong Zhang Hao Wang Trung Hieu Nguyen Kun Zhou Jiaqi Yip Dianwen Ng Bin Ma

概要

これまでに提案したMossFormerは、モノラル音声分離において有望な性能を達成している。しかし、このモデルは主に自己注意機構（self-attention）に基づくMossFormerモジュールを採用しており、長距離かつ粗粒度の依存関係に注目する傾向がある一方で、細粒度の再帰的パターンを効果的にモデル化する点に課題を抱えている。本論文では、MossFormerフレームワークに再帰モジュールを統合することで、長距離・粗粒度の依存関係と細粒度の再帰的パターンの両方をモデル化できる新しいハイブリッドモデルを提案する。従来の再帰接続を用いる再帰型ニューラルネットワーク（RNN）ではなく、再帰接続を用いない「RNNフリー」の再帰ネットワークとして注目されている、前向き順次記憶ネットワーク（Feedforward Sequential Memory Network: FSMN）に基づく再帰モジュールを導入する。本再帰モジュールは、ゲート付き畳み込みユニット（Gated Convolutional Unit: GCU）を用いた拡張された拡張畳み込みFSMNブロックと、密接接続（dense connections）を組み合わせて構成されており、情報の流れを制御するためのボトルネック層および出力層も追加されている。この再帰モジュールは、線形変換と畳み込み演算に依拠することで、全系列のシームレスかつ並列処理を実現する。統合されたMossFormer2ハイブリッドモデルは、MossFormerを著しく上回る性能を発揮し、WSJ0-2/3mix、Libri2Mix、WHAM!/WHAMR!のベンチマークにおいて、他の最先端手法をも凌駕している（https://github.com/modelscope/ClearerVoice-Studio）。

ソースPDF コードを表示

AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助

すぐに使える GPU

最適な料金体系

開始する料金を見る

HyperAI Newsletters

最新情報を購読する

北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします

メール配信サービスは MailChimp によって提供されています

6ヶ月前

音声および音声処理

畳み込みニューラルネットワーク

アプローチ／フレームワーク

オーディオ

Shengkui Zhao Yukun Ma Chongjia Ni Chong Zhang Hao Wang Trung Hieu Nguyen Kun Zhou Jiaqi Yip Dianwen Ng Bin Ma

概要

これまでに提案したMossFormerは、モノラル音声分離において有望な性能を達成している。しかし、このモデルは主に自己注意機構（self-attention）に基づくMossFormerモジュールを採用しており、長距離かつ粗粒度の依存関係に注目する傾向がある一方で、細粒度の再帰的パターンを効果的にモデル化する点に課題を抱えている。本論文では、MossFormerフレームワークに再帰モジュールを統合することで、長距離・粗粒度の依存関係と細粒度の再帰的パターンの両方をモデル化できる新しいハイブリッドモデルを提案する。従来の再帰接続を用いる再帰型ニューラルネットワーク（RNN）ではなく、再帰接続を用いない「RNNフリー」の再帰ネットワークとして注目されている、前向き順次記憶ネットワーク（Feedforward Sequential Memory Network: FSMN）に基づく再帰モジュールを導入する。本再帰モジュールは、ゲート付き畳み込みユニット（Gated Convolutional Unit: GCU）を用いた拡張された拡張畳み込みFSMNブロックと、密接接続（dense connections）を組み合わせて構成されており、情報の流れを制御するためのボトルネック層および出力層も追加されている。この再帰モジュールは、線形変換と畳み込み演算に依拠することで、全系列のシームレスかつ並列処理を実現する。統合されたMossFormer2ハイブリッドモデルは、MossFormerを著しく上回る性能を発揮し、WSJ0-2/3mix、Libri2Mix、WHAM!/WHAMR!のベンチマークにおいて、他の最先端手法をも凌駕している（https://github.com/modelscope/ClearerVoice-Studio）。

ソースPDF コードを表示

AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助

すぐに使える GPU

最適な料金体系

開始する料金を見る

HyperAI Newsletters

最新情報を購読する

北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします

メール配信サービスは MailChimp によって提供されています

MossFormer2：TransformerとRNNフリー再帰ネットワークを統合した時間領域単一音声分離のための手法 | 記事 | HyperAI超神経