2 个月前
一种用于序列预测的演员-评论家算法
Dzmitry Bahdanau; Philemon Brakel; Kelvin Xu; Anirudh Goyal; Ryan Lowe; Joelle Pineau; Aaron Courville; Yoshua Bengio

摘要
我们提出了一种利用强化学习(RL)中的演员-评论家方法训练神经网络生成序列的方法。当前基于对数似然性的训练方法受到其训练模式与测试模式之间差异的限制,因为在测试时,模型必须根据之前的预测生成标记,而不是根据真实标记。为了解决这一问题,我们引入了一个评论家网络,该网络被训练用于在给定演员网络策略的情况下预测输出标记的价值。这使得训练过程更加接近测试阶段,并允许我们直接针对特定任务的评分指标(如BLEU)进行优化。关键在于,由于我们在监督学习环境中应用这些技术,而非传统的强化学习环境,因此我们将评论家网络基于真实输出进行条件化。实验结果表明,我们的方法在合成任务以及德英机器翻译任务中均能提高性能。我们的分析为这些方法应用于自然语言生成任务(如机器翻译、图像描述生成和对话建模)铺平了道路。