6ヶ月前

畳み込みニューラルネットワーク

音声および音声処理

アプローチ／フレームワーク

オーディオ

William Ravenscroft Stefan Goetze Thomas Hain

概要

スピーチ分離は、マルチスピーカー技術の研究者にとって重要なテーマの一つである。畳み込み拡張型トランスフォーマー（Conformers）は、多数の音声処理タスクにおいて優れた性能を発揮しているが、スピーチ分離における研究はまだ十分に進んでいない。近年の最先端（SOTA）分離モデルの多くは、時間領域音声分離ネットワーク（TasNet）に基づいている。多くの成功したモデルでは、局所情報とグローバル情報を逐次処理する二重パス（DP）ネットワークが活用されている。時間領域Conformers（TD-Conformers）は、局所的およびグローバルな文脈を逐次処理する点でDPアプローチに類似しているが、時間計算量の関数が異なる。実用的な短い信号長を想定した場合、特徴次元を一定に保った状態でConformersがより計算効率が良いことが示された。さらに、計算効率を向上させるために、サブサンプリング層の導入が提案されている。最良のTD-Conformerは、WHAMRとWSJ0-2Mixのベンチマークにおいて、それぞれ14.6 dBおよび21.2 dBのSISDR向上を達成した。

AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助

すぐに使える GPU

最適な料金体系

開始する料金を見る

HyperAI Newsletters

最新情報を購読する

北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします

メール配信サービスは MailChimp によって提供されています

6ヶ月前

畳み込みニューラルネットワーク

音声および音声処理

アプローチ／フレームワーク

オーディオ

William Ravenscroft Stefan Goetze Thomas Hain

概要

スピーチ分離は、マルチスピーカー技術の研究者にとって重要なテーマの一つである。畳み込み拡張型トランスフォーマー（Conformers）は、多数の音声処理タスクにおいて優れた性能を発揮しているが、スピーチ分離における研究はまだ十分に進んでいない。近年の最先端（SOTA）分離モデルの多くは、時間領域音声分離ネットワーク（TasNet）に基づいている。多くの成功したモデルでは、局所情報とグローバル情報を逐次処理する二重パス（DP）ネットワークが活用されている。時間領域Conformers（TD-Conformers）は、局所的およびグローバルな文脈を逐次処理する点でDPアプローチに類似しているが、時間計算量の関数が異なる。実用的な短い信号長を想定した場合、特徴次元を一定に保った状態でConformersがより計算効率が良いことが示された。さらに、計算効率を向上させるために、サブサンプリング層の導入が提案されている。最良のTD-Conformerは、WHAMRとWSJ0-2Mixのベンチマークにおいて、それぞれ14.6 dBおよび21.2 dBのSISDR向上を達成した。

AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助

すぐに使える GPU

最適な料金体系

開始する料金を見る

HyperAI Newsletters

最新情報を購読する

北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします

メール配信サービスは MailChimp によって提供されています

騒音混在リバーバント音響環境下におけるモノラル音声分離のための時系列ドメインConformerモデル | 記事 | HyperAI超神経