11日前

テキストだけでは不十分!プロファイルベースの音声言語理解のためのベンチマーク

Xiao Xu, Libo Qin, Kaiji Chen, Guoxing Wu, Linlin Li, Wanxiang Che
テキストだけでは不十分!プロファイルベースの音声言語理解のためのベンチマーク
要約

現在の話語理解(Spoken Language Understanding, SLU)に関する研究は、主に単純な設定に限定されている:ユーザーの発話(utterance)を入力として受け取り、その対応する意味フレーム(例:意図(intent)とスロット(slot))を出力する、テキストベースのSLUである。しかし、このような単純な設定では、発話が意味的に曖昧な場合に実世界の複雑な状況で機能しなくなる可能性がある。これは、テキストベースのSLUモデルでは対応できない問題である。本論文では、まず、モデルが単なる平文に加えて、補助的なプロファイル情報を活用して正しい意図とスロットを予測できる必要がある、新たな重要なタスクである「プロファイルベースの話語理解(Profile-based Spoken Language Understanding, ProSLU)」を提唱する。これに伴い、5,000件を超える発話と、それらに対応する補助情報(知識グラフ(Knowledge Graph, KG)、ユーザープロファイル(User Profile, UP)、コンテキスト認識(Context Awareness, CA))を含む大規模な人手による注釈付き中国語データセットを構築した。さらに、最先端の複数のベースラインモデルを評価し、プロファイル情報を効果的に統合するためのマルチレベル知識アダプタ(multi-level knowledge adapter)を検討した。実験結果から、発話が意味的に曖昧な状況では、既存のすべてのテキストベースSLUモデルが機能を失うことが明らかになった一方で、本研究で提案するフレームワークは、文レベルの意図検出とトークンレベルのスロット埋め込みにおいて、補助情報を効果的に統合できることを示した。最後に、本研究で浮き彫りになった主要な課題を整理し、今後の研究における新たな方向性を提示した。これらは、今後のSLU分野の発展を促進することを目的としている。

テキストだけでは不十分!プロファイルベースの音声言語理解のためのベンチマーク | 最新論文 | HyperAI超神経