7ヶ月前

概要

本稿では、最近のUbuntu Dialogue Corpusの更新版を用いて、エンド・トゥ・エンドで学習されたニューラルネットワークベースの対話システムを分析する。このデータセットは、約100万件のマルチターン対話、合計700万以上の発話、1億語以上の語彙を含んでおり、その規模、長いコンテキスト長、および技術的な性質から、特徴工学を最小限に抑えつつ大規模モデルをデータから直接学習可能である点で注目される。我々は、2つの異なる環境におけるベースラインを提示する。1つは、候補発話のリストから正しい次の応答を選択するようにモデルを学習する設定であり、もう1つは、会話のコンテキストを条件として生成された発話の対数尤度を最大化するように学習する設定である。これらのモデルは、次発話分類（Next Utterance Classification, NUC）というリコールタスクおよび、応答のトピカル性を捉えるベクトルベースの評価指標を用いて評価される。分析の結果、現在のエンド・トゥ・エンドモデルはこれらのタスクを完全に解くことができないことが明らかになった。そこで、NUCタスク上で評価されたエンド・トゥ・エンドモデルの主な誤り原因を定性的に分析し、生成モデルから得られたサンプル発話を検討した。この分析の結果、Ubuntu Dialogue Corpusに関する今後の研究における有望な方向性を提示する。これらの方向性は、一般のエンド・トゥ・エンド対話システムにも応用可能である。

ソースPDF