17日前

事前学習されたネットワークと連続トークンインターフェースの統合によるエンドツーエンド音声言語理解

Seunghyun Seo, Donghyun Kwak, Bowon Lee

要約

多くのエンドツーエンド（E2E）SLUネットワークは事前学習済みのASRネットワークを活用しているが、依然として発話の意味を正確に理解する能力に欠けており、SLUタスクにおいて極めて重要な課題である。この問題を解決するために、最近の研究では事前学習済みのNLUネットワークの利用が提案されている。しかしながら、両方の事前学習ネットワークを効果的に統合することは容易ではない。そのため、知識蒸留（Knowledge Distillation）、クロスモーダル共有埋め込み、およびインターフェースを用いたネットワーク統合などの多くのアプローチが提案されてきた。本研究では、同じ語彙で事前学習されたASRネットワークとNLUネットワークの間の接続表現として、新たなインターフェースである「連続トークンインターフェース（Continuous Token Interface, CTI）」を導入し、シンプルかつ堅牢なE2E SLUネットワークの統合手法を提案する。CTIでは、両ネットワーク間の唯一の違いがノイズレベルであることに着目し、ASRネットワークの出力を直接NLUネットワークに入力することで、Gumbel-Softmaxのような追加モジュールを必要とせずにE2E学習が可能となる。我々は、挑戦的なSLUデータセットであるSLURPを用いてモデルを評価し、意図分類およびスロットフィリングの両タスクで最先端の性能を達成した。さらに、マスク言語モデル（Masked Language Model）で事前学習されたNLUネットワークが、CTIによるノイズを含むテキスト表現を効果的に活用できることを検証した。また、CTIを用いた統合後でも、異種データからのマルチタスク学習によってモデルを訓練可能であることを示した。