
要約
音声対話システムからの応答遅延は、人間-コンピュータインタラクション(HCI)に顕著な影響を及ぼす。そのため、レイテンシを低減するため、最近、エンド・ツー・エンド(e2e)音声言語理解(SLU)のアプローチが提案されている。こうした手法は、音声信号から直接意味情報を抽出可能であり、自動音声認識(ASR)システムによる文字起こしの必要性を回避する。本論文では、ストリーミング環境を想定したコンパクトなe2e SLUアーキテクチャを提案する。このアーキテクチャでは、音声信号のチャンクを継続的に処理し、意図(intent)およびスロット値(slot values)を予測する。本モデルは3次元畳み込みニューラルネットワーク(3D-CNN)と単方向長短期記憶(LSTM)に基づいている。また、アライメント不要な損失関数の2つの手法、すなわち接続主義的時系列分類(CTC)とその拡張版である接続主義的時系列局在化(CTL)の性能を比較した。CTLは分類に加えて、順序付き音声イベントの局在化も行う。提案手法はFluent Speech Commandデータセットを用いて評価された結果、入力音声信号の処理が可能であることが示され、単ラベル分類においてCTCで98.97%、CTLで98.78%の精度を達成し、二ラベル予測においてはCTCで95.69%、CTLで95.28%の精度を記録した。