HyperAIHyperAI

Command Palette

Search for a command to run...

効率的なキーワードスポットティングのためのブロードキャスト残差学習

Byeonggeun Kim Simyung Chang Jinkyu Lee Dooyong Sung

概要

キーワードスポットリングは、スマートデバイスにおけるデバイスの起動(ウェイクアップ)およびユーザーとのインタラクションにおいて重要な役割を果たすため、重要な研究分野である。しかし、モバイル端末などリソースが限られたデバイス上で効率的に動作しつつ誤りを最小限に抑えることは困難である。本研究では、モデルサイズと計算負荷を抑えた高精度なキーワードスポットリングを実現するため、ブロードキャスト型残差学習(broadcasted residual learning)を提案する。本手法は、大部分の残差関数を1次元時系列畳み込み(1D temporal convolution)で構成しつつ、時系列出力を周波数-時系列次元に拡張するブロードキャスト型残差接続(broadcasted-residual connection)を用いて2次元畳み込みも併用可能とする。この残差マッピングにより、従来の畳み込みニューラルネットワークよりもはるかに少ない計算量で、有用な音声特徴を効果的に表現できる。さらに、このブロードキャスト型残差学習に基づく新しいネットワークアーキテクチャとして「ブロードキャスト残差ネットワーク(Broadcasting-residual network, BC-ResNet)」を提案し、ターゲットデバイスのリソースに応じたモデルスケーリング手法も提示する。BC-ResNetは、Google Speech Commands データセット v1 および v2 において、それぞれ98.0%および98.7%のトップ1精度を達成し、従来手法を常に上回る性能を発揮しながら、計算量とパラメータ数を削減している。実装コードは、https://github.com/Qualcomm-AI-research/bcresnet にて公開されている。


AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助
すぐに使える GPU
最適な料金体系

HyperAI Newsletters

最新情報を購読する
北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします
メール配信サービスは MailChimp によって提供されています