1ヶ月前
ヒューマンによる教育とフィードバックを用いたエンドツーエンド学習可能なタスク指向対話システムにおける対話学習
Bing Liu; Gokhan Tur; Dilek Hakkani-Tur; Pararth Shah; Larry Heck

要約
本研究では、オンラインユーザーとの対話を通じてタスク指向の対話システムを訓練するためのハイブリッド学習方法を提案します。タスク指向の対話学習における一般的な手法には、教師あり事前学習モデルに対してユーザーフィードバックを使用した強化学習が含まれます。このような学習方法の効率は、オフライン学習とオンラインインタラクティブ学習の段階における対話状態分布の不一致により影響を受けます。この課題に対処するために、ヒューマンティーチングとフィードバックから学ぶことで、対話エージェントがユーザーとの対話を通じて効果的に学べるハイブリッド模倣強化学習方法を提案します。私たちは、提案された学習方法で端から端まで最適化できるニューラルネットワークベースのタスク指向対話エージェントを設計しました。実験結果は、当該エンドツーエンド対話エージェントがユーザーからの模倣学習を通じて自身の誤りから効果的に学べることを示しています。また、模倣学習段階後にユーザーフィードバックを使用した強化学習を適用することで、エージェントがタスクを成功裏に完了する能力がさらに向上することが確認されました。