17日前

エンドツーエンドキーワードスポットリングにおけるニューラルアーキテクチャサーチと量子化の活用

David Peter, Wolfgang Roth, Franz Pernkopf
エンドツーエンドキーワードスポットリングにおけるニューラルアーキテクチャサーチと量子化の活用
要約

本稿では、リソース制約環境におけるエンドツーエンド型キーワード検出(KWS)モデルの自動発見を目的として、ニューラルアーキテクチャサーチ(NAS)を導入する。本研究では、原始音声波形を入力とする畳み込みニューラルネットワーク(CNN)の構造最適化を目的として、微分可能NASアプローチを採用する。NASにより適切なKWSモデルを探索した後、重みおよび活性化値の量子化を実施し、メモリ使用量を削減する。広範な実験をGoogleのSpeech Commandsデータセット上で実施し、特にメル周波数ケプストラム係数(MFCC)を用いた従来手法と、本研究のエンドツーエンドアプローチを比較した。量子化手法については、固定ビット幅量子化とトレーニング可能なビット幅量子化を比較検討した。NASのみを用いた場合、75.7kパラメータ、13.6M演算量で95.55%の精度を達成する高効率なモデルを構築できた。一方、トレーニング可能なビット幅量子化を適用した場合、同じモデルはテスト精度93.76%を維持しつつ、活性化値あたり平均2.91ビット、重みあたり平均2.51ビットの低ビット幅で実行可能となった。