7 个月前

监督式微调

Bing Liu; Gokhan Tur; Dilek Hakkani-Tur; Pararth Shah; Larry Heck

摘要

在本研究中，我们提出了一种通过在线用户交互训练任务导向对话系统的混合学习方法。目前，任务导向对话的学习方法主要包括利用用户反馈对监督预训练模型进行强化学习。然而，这种学习方法的效率可能会因离线训练阶段和在线交互学习阶段之间对话状态分布的不匹配而受到影响。为了解决这一挑战，我们提出了一种结合模仿学习和强化学习的混合方法，使对话代理能够通过从人类教学和反馈中学习来有效提升其与用户的交互能力。我们设计了一个基于神经网络的任务导向对话代理，该代理可以通过所提出的混合学习方法进行端到端优化。实验结果表明，我们的端到端对话代理能够通过模仿学习从用户教学中的错误中有效学习。在模仿学习阶段之后应用带有用户反馈的强化学习进一步提高了代理成功完成任务的能力。

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供

7 个月前

监督式微调

Bing Liu; Gokhan Tur; Dilek Hakkani-Tur; Pararth Shah; Larry Heck

摘要

在本研究中，我们提出了一种通过在线用户交互训练任务导向对话系统的混合学习方法。目前，任务导向对话的学习方法主要包括利用用户反馈对监督预训练模型进行强化学习。然而，这种学习方法的效率可能会因离线训练阶段和在线交互学习阶段之间对话状态分布的不匹配而受到影响。为了解决这一挑战，我们提出了一种结合模仿学习和强化学习的混合方法，使对话代理能够通过从人类教学和反馈中学习来有效提升其与用户的交互能力。我们设计了一个基于神经网络的任务导向对话代理，该代理可以通过所提出的混合学习方法进行端到端优化。实验结果表明，我们的端到端对话代理能够通过模仿学习从用户教学中的错误中有效学习。在模仿学习阶段之后应用带有用户反馈的强化学习进一步提高了代理成功完成任务的能力。

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供