HyperAIHyperAI

Command Palette

Search for a command to run...

事前学習されたネットワークと連続トークンインターフェースの統合によるエンドツーエンド音声言語理解

Seunghyun Seo Donghyun Kwak Bowon Lee

概要

多くのエンドツーエンド(E2E)SLUネットワークは事前学習済みのASRネットワークを活用しているが、依然として発話の意味を正確に理解する能力に欠けており、SLUタスクにおいて極めて重要な課題である。この問題を解決するために、最近の研究では事前学習済みのNLUネットワークの利用が提案されている。しかしながら、両方の事前学習ネットワークを効果的に統合することは容易ではない。そのため、知識蒸留(Knowledge Distillation)、クロスモーダル共有埋め込み、およびインターフェースを用いたネットワーク統合などの多くのアプローチが提案されてきた。本研究では、同じ語彙で事前学習されたASRネットワークとNLUネットワークの間の接続表現として、新たなインターフェースである「連続トークンインターフェース(Continuous Token Interface, CTI)」を導入し、シンプルかつ堅牢なE2E SLUネットワークの統合手法を提案する。CTIでは、両ネットワーク間の唯一の違いがノイズレベルであることに着目し、ASRネットワークの出力を直接NLUネットワークに入力することで、Gumbel-Softmaxのような追加モジュールを必要とせずにE2E学習が可能となる。我々は、挑戦的なSLUデータセットであるSLURPを用いてモデルを評価し、意図分類およびスロットフィリングの両タスクで最先端の性能を達成した。さらに、マスク言語モデル(Masked Language Model)で事前学習されたNLUネットワークが、CTIによるノイズを含むテキスト表現を効果的に活用できることを検証した。また、CTIを用いた統合後でも、異種データからのマルチタスク学習によってモデルを訓練可能であることを示した。


AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助
すぐに使える GPU
最適な料金体系

HyperAI Newsletters

最新情報を購読する
北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします
メール配信サービスは MailChimp によって提供されています