6ヶ月前

音声および音声処理

畳み込みニューラルネットワーク

ディープラーニング

アプローチ／フレームワーク

オーディオ

Somshubra Majumdar Boris Ginsburg

概要

本稿では、音声コマンド認識を目的としたエンドツーエンド型ニューラルネットワーク「MatchboxNet」を提案する。MatchboxNetは、1次元時空間分離畳み込み（1D time-channel separable convolution）、バッチ正規化、ReLU活性化関数、ドロップアウト層から構成される深層残差ネットワークである。このモデルは、Google Speech Commandsデータセットにおいて最先端の精度を達成しつつ、類似モデルと比較して著しく少ないパラメータ数で実現している。MatchboxNetの小型なメモリフットプリントは、計算リソースが限られたデバイス向けに非常に魅力的な選択肢となる。また、モデルは高いスケーラビリティを備えており、わずかな追加のメモリと計算資源でモデルの精度を向上させることができる。最後に、補助的なノイズデータセットを用いた強力なデータ拡張手法が、背景ノイズ環境下におけるモデルのロバスト性を向上させることを示した。

AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助

すぐに使える GPU

最適な料金体系

開始する料金を見る

HyperAI Newsletters

最新情報を購読する

北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします

メール配信サービスは MailChimp によって提供されています

6ヶ月前

音声および音声処理

畳み込みニューラルネットワーク

ディープラーニング

アプローチ／フレームワーク

オーディオ

Somshubra Majumdar Boris Ginsburg

概要

本稿では、音声コマンド認識を目的としたエンドツーエンド型ニューラルネットワーク「MatchboxNet」を提案する。MatchboxNetは、1次元時空間分離畳み込み（1D time-channel separable convolution）、バッチ正規化、ReLU活性化関数、ドロップアウト層から構成される深層残差ネットワークである。このモデルは、Google Speech Commandsデータセットにおいて最先端の精度を達成しつつ、類似モデルと比較して著しく少ないパラメータ数で実現している。MatchboxNetの小型なメモリフットプリントは、計算リソースが限られたデバイス向けに非常に魅力的な選択肢となる。また、モデルは高いスケーラビリティを備えており、わずかな追加のメモリと計算資源でモデルの精度を向上させることができる。最後に、補助的なノイズデータセットを用いた強力なデータ拡張手法が、背景ノイズ環境下におけるモデルのロバスト性を向上させることを示した。

AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助

すぐに使える GPU

最適な料金体系

開始する料金を見る

HyperAI Newsletters

最新情報を購読する

北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします

メール配信サービスは MailChimp によって提供されています