8ヶ月前

畳み込みニューラルネットワーク

音声および音声処理

アプローチ／フレームワーク

オーディオ

Author Name

概要

音声分類において、パラメータが少ない微分可能な聴覚フィルタバンクは、ハードコーディングされたスペクトログラムと生の音声の間の中道を占めています。Gaborに基づくフィルタバンクとチャネルごとのエネルギー正規化（Per-Channel Energy Normalization, PCEN）を組み合わせたLEAF (arXiv:2101.08596) は有望な結果を示していますが、計算コストが高いという問題があります。非均一な畳み込みカーネルサイズとストライドを使用し、PCENをより並列化可能な操作に置き換えることで、効率的に同様の結果を得ることができます。6つの音声分類タスクにおける実験では、私たちのフロントエンドはLEAFの精度に匹敵する結果を3%のコストで達成しましたが、両方とも固定されたメルフィルタバンクを一貫して上回ることはできませんでした。学習可能な音声フロントエンドの追求はまだ解決されていません。

ソースPDF コードを表示

AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助

すぐに使える GPU

最適な料金体系

開始する料金を見る

HyperAI Newsletters

最新情報を購読する

北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします

メール配信サービスは MailChimp によって提供されています

8ヶ月前

畳み込みニューラルネットワーク

音声および音声処理

アプローチ／フレームワーク

オーディオ

Author Name

概要

音声分類において、パラメータが少ない微分可能な聴覚フィルタバンクは、ハードコーディングされたスペクトログラムと生の音声の間の中道を占めています。Gaborに基づくフィルタバンクとチャネルごとのエネルギー正規化（Per-Channel Energy Normalization, PCEN）を組み合わせたLEAF (arXiv:2101.08596) は有望な結果を示していますが、計算コストが高いという問題があります。非均一な畳み込みカーネルサイズとストライドを使用し、PCENをより並列化可能な操作に置き換えることで、効率的に同様の結果を得ることができます。6つの音声分類タスクにおける実験では、私たちのフロントエンドはLEAFの精度に匹敵する結果を3%のコストで達成しましたが、両方とも固定されたメルフィルタバンクを一貫して上回ることはできませんでした。学習可能な音声フロントエンドの追求はまだ解決されていません。

ソースPDF コードを表示

AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助

すぐに使える GPU

最適な料金体系

開始する料金を見る

HyperAI Newsletters

最新情報を購読する

北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします

メール配信サービスは MailChimp によって提供されています

EfficientLEAF: より高速な学習可能な音声フロントエンドの問題点について | 記事 | HyperAI超神経