
要約
対話状態トラッカー(Dialogue State Tracker, DST)は、対話の各ターンにおいてユーザーの目的に関する信念を推定することを目的とする対話システムの核心的な構成要素である。現在の大多数のDSTトラッカーは再帰型ニューラルネットワーク(RNN)を活用しており、複雑なアーキテクチャに基づいており、ユーザーの発話、システムの行動、およびドメインオントロジーに定義されたスロット・値ペアといった対話の複数の側面を管理している。しかし、こうしたニューラルアーキテクチャの複雑さは、対話状態予測における顕著な遅延を引き起こし、特にスロット数(=タスクスケーラビリティ)が重要な要因となる実世界アプリケーションへの展開を制限している。本論文では、非常に低い遅延で対話状態を予測しつつ、高い性能を維持できる革新的なニューラルモデル、すなわち「グローバルエンコーダとスロットに注目するデコーダ(Global encoder and Slot-Attentive decoders, G-SAT)」を提案する。本研究では、WoZ2.0データセットの英語、イタリア語、ドイツ語の3言語に対して実験を行い、提案手法が最先端のDSTシステムと比較して、精度および予測の時間的複雑さの両面で競争上の優位性を示した。特に、他のシステムと比べて15倍以上も高速であることが明らかになった。