18日前
エンドツーエンド音声言語理解のためのスピーチ・ランゲージ事前学習
Yao Qian, Ximo Bian, Yu Shi, Naoyuki Kanda, Leo Shen, Zhen Xiao, Michael Zeng

要約
エンドツーエンド(E2E)音声言語理解(SLU)は、自動音声認識(ASR)モジュールと自然言語理解(NLU)モジュールを段階的に連結する従来のアプローチを経由せずに、音声信号から直接意味情報を推論できる。しかし、実際のプロダクション環境では、対応する発話データとその意味情報が常に十分に入手可能であるとは限らず、E2E SLUモデルの学習に必要なペアデータが不足する場合がある。本論文では、高度に最適化されたE2E ASRエンコーダ(音声)と事前学習済み言語モデルエンコーダ(言語)を統合し、トランスフォーマー・デコーダとして構成する手法を提案する。この統合型音声・言語事前学習モデル(SLP)は、ターゲットドメインからの限定的なラベル付きデータを用いて、条件付きマスク言語モデル(MLM)の目的関数に基づき継続的に強化される。その結果、推論時に入力音声に対して、意図(intent)、スロットタイプ(slot type)、スロット値(slot value)の順序付きシーケンスを効果的に生成することが可能となる。公開データセット2種類における実験結果から、本手法は従来の段階的アプローチを上回る性能を示すとともに、現在の最先端E2E SLU手法と比較して、はるかに少ないペアデータ量で優れた結果を達成することが明らかになった。