17日前

エンドツーエンド音声言語理解のための2段階テキスト知識蒸留

Seongbin Kim, Gyuwan Kim, Seongjin Shin, Sangmin Lee
エンドツーエンド音声言語理解のための2段階テキスト知識蒸留
要約

エンドツーエンドアプローチは、従来のパイプライン型システムの欠点を軽減することで、より正確かつ効率的な音声言語理解(SLU)システムの実現に新たな道を開く。これまでの研究では、自動音声認識(ASR)による事前学習や知識蒸留(knowledge distillation)による微調整を通じて、SLUモデルがテキスト情報を活用してきた。本研究では、より効果的にテキスト情報を活用するため、事前学習および微調整の各段階で、二段階にわたるテキスト知識蒸留手法を提案する。この手法は、各モダリティ(音声・テキスト)の発話レベル表現および予測ログィットを逐次的に一致させるものである。音声エンコーダとして、汎用性と豊富な特徴を捉えられるvq-wav2vec BERTを採用した。さらに、離散音声トークンおよび文脈化された隠れ表現に対してランダムにスパンをマスキングするデータ拡張手法を導入することで、特にリソースが限られた環境下でも性能を向上させた。その結果、Fluent Speech Commandsデータセットにおいて、フルデータ設定で99.7%、10%サブセット設定で99.5%のテスト精度を達成し、現状における最良の性能を実現した。アブレーションスタディを通じて、使用したすべての手法が最終的な性能に不可欠であることを実証的に確認し、音声言語理解における最良の実践法を提示した。コードはhttps://github.com/clovaai/textual-kd-sluにて公開されている。