17日前
MatchboxNet:音声コマンド認識のための1次元時刻-チャネル分離型畳み込みニューラルネットワークアーキテクチャ
Somshubra Majumdar, Boris Ginsburg

要約
本稿では、音声コマンド認識を目的としたエンドツーエンド型ニューラルネットワーク「MatchboxNet」を提案する。MatchboxNetは、1次元時空間分離畳み込み(1D time-channel separable convolution)、バッチ正規化、ReLU活性化関数、ドロップアウト層から構成される深層残差ネットワークである。このモデルは、Google Speech Commandsデータセットにおいて最先端の精度を達成しつつ、類似モデルと比較して著しく少ないパラメータ数で実現している。MatchboxNetの小型なメモリフットプリントは、計算リソースが限られたデバイス向けに非常に魅力的な選択肢となる。また、モデルは高いスケーラビリティを備えており、わずかな追加のメモリと計算資源でモデルの精度を向上させることができる。最後に、補助的なノイズデータセットを用いた強力なデータ拡張手法が、背景ノイズ環境下におけるモデルのロバスト性を向上させることを示した。