2ヶ月前

敵対的学習を用いたニューラル対話生成

Jiwei Li; Will Monroe; Tianlin Shi; Sébastien Jean; Alan Ritter; Dan Jurafsky
敵対的学習を用いたニューラル対話生成
要約

本論文では、チューリングテストの直感を基に、オープンドメイン対話生成に敵対的訓練を使用することを提案する。システムは、人間が生成した対話発話を区別できないようなシーケンスを生成するために訓練される。このタスクを強化学習(Reinforcement Learning, RL)の問題として定式化し、応答シーケンスを生成する生成モデルと、人間が生成した対話と機械が生成した対話を区別する識別器(チューリングテストにおける人間の評価者に相当)の2つのシステムを共同で訓練する。識別器からの出力は、生成モデルに対する報酬として使用され、システムが主に対人間のような対話を生成するように促す。また、敵対的訓練に加えて、敵対者がだまされることの成功度を対話評価指標として使用するための敵対的{\em 評価}モデルについても説明する。このモデルは、潜在的な落とし穴を避けるために設計されている。複数の指標、特に敵対的評価を含む実験結果は、敵対的に訓練されたシステムが以前のベースラインよりも高品質な応答を生成することを示している。