Command Palette

Search for a command to run...

4ヶ月前

エンドツーエンド対話システムのUbuntu対話コーパスを用いた訓練

{Joelle Pineau Chia-Wei Liu Laurent Charlin Iulian Vlad Serban Nissan Pow Ryan Lowe}

エンドツーエンド対話システムのUbuntu対話コーパスを用いた訓練

要約

本稿では、最近のUbuntu Dialogue Corpusの更新版を用いて、エンド・トゥ・エンドで学習されたニューラルネットワークベースの対話システムを分析する。このデータセットは、約100万件のマルチターン対話、合計700万以上の発話、1億語以上の語彙を含んでおり、その規模、長いコンテキスト長、および技術的な性質から、特徴工学を最小限に抑えつつ大規模モデルをデータから直接学習可能である点で注目される。我々は、2つの異なる環境におけるベースラインを提示する。1つは、候補発話のリストから正しい次の応答を選択するようにモデルを学習する設定であり、もう1つは、会話のコンテキストを条件として生成された発話の対数尤度を最大化するように学習する設定である。これらのモデルは、次発話分類(Next Utterance Classification, NUC)というリコールタスクおよび、応答のトピカル性を捉えるベクトルベースの評価指標を用いて評価される。分析の結果、現在のエンド・トゥ・エンドモデルはこれらのタスクを完全に解くことができないことが明らかになった。そこで、NUCタスク上で評価されたエンド・トゥ・エンドモデルの主な誤り原因を定性的に分析し、生成モデルから得られたサンプル発話を検討した。この分析の結果、Ubuntu Dialogue Corpusに関する今後の研究における有望な方向性を提示する。これらの方向性は、一般のエンド・トゥ・エンド対話システムにも応用可能である。

ベンチマーク

ベンチマーク方法論指標
conversation-disentanglement-on-linux-irc-ch2Heuristic
1-1: 43.4
Local: 67.9
Shen F-1: 50.7
conversation-disentanglement-on-linux-irc-ch2-1Heuristic
1-1: 45.1
Local: 73.8
Shen F-1: 51.8

AI で AI を構築

アイデアからローンチまで — 無料の AI 共同コーディング、すぐに使える環境、最適価格の GPU で AI 開発を加速。

AI 共同コーディング
すぐに使える GPU
最適価格
今すぐ始める

Hyper Newsletters

最新情報を購読する
北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします
メール配信サービスは MailChimp によって提供されています
エンドツーエンド対話システムのUbuntu対話コーパスを用いた訓練 | 論文 | HyperAI超神経