HyperAIHyperAI

Command Palette

Search for a command to run...

MatchboxNet:音声コマンド認識のための1次元時刻-チャネル分離型畳み込みニューラルネットワークアーキテクチャ

Somshubra Majumdar Boris Ginsburg

概要

本稿では、音声コマンド認識を目的としたエンドツーエンド型ニューラルネットワーク「MatchboxNet」を提案する。MatchboxNetは、1次元時空間分離畳み込み(1D time-channel separable convolution)、バッチ正規化、ReLU活性化関数、ドロップアウト層から構成される深層残差ネットワークである。このモデルは、Google Speech Commandsデータセットにおいて最先端の精度を達成しつつ、類似モデルと比較して著しく少ないパラメータ数で実現している。MatchboxNetの小型なメモリフットプリントは、計算リソースが限られたデバイス向けに非常に魅力的な選択肢となる。また、モデルは高いスケーラビリティを備えており、わずかな追加のメモリと計算資源でモデルの精度を向上させることができる。最後に、補助的なノイズデータセットを用いた強力なデータ拡張手法が、背景ノイズ環境下におけるモデルのロバスト性を向上させることを示した。


AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助
すぐに使える GPU
最適な料金体系

HyperAI Newsletters

最新情報を購読する
北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします
メール配信サービスは MailChimp によって提供されています
MatchboxNet:音声コマンド認識のための1次元時刻-チャネル分離型畳み込みニューラルネットワークアーキテクチャ | 記事 | HyperAI超神経