
要約
多意図音声言語理解(Multi-Intent Spoken Language Understanding, SLU)は、従来のSLUとは異なり、各意図(intent)が固有の範囲(scope)を持つという、より複雑かつ新しい設定として注目を集めている。この設定では、範囲外の意味情報が意図の予測を妨げることさえあり、意図検出の難易度を著しく高めている。さらに深刻なのは、誤った意図ラベルに基づいてスロットフィルリングを誘導することで、誤差伝搬(error propagation)が発生し、全体的な性能が満足のいくものにならない点である。本論文では、これらの課題を解決するために、Transformerに基づく新しいスコープセンシティブ・リザルトアテンションネットワーク(Scope-Sensitive Result Attention Network, SSRAN)を提案する。本モデルは、スコープ認識器(Scope Recognizer, SR)とリザルトアテンションネットワーク(Result Attention Network, RAN)の2つの主要モジュールから構成される。スコープ認識器は各トークンにスコープ情報を割り当てることで、範囲外のトークンによる干渉を低減する。一方、リザルトアテンションネットワークは、スロットフィルリングと意図検出の結果間における双方向的な相互作用を有効に活用し、誤差伝搬の問題を緩和する。2つの公開データセットにおける実験結果から、本モデルは最先端のベースラインに対して、全体精度(Overall accuracy)においてそれぞれ5.4%および2.1%の顕著な向上を達成したことが示された。