
摘要
作为一种新的生成模型训练方法,生成对抗网络(Generative Adversarial Nets, GAN)通过使用判别模型来指导生成模型的训练,在生成实值数据方面取得了显著成功。然而,当目标是生成离散符号序列时,GAN 存在一定的局限性。主要原因是生成模型的离散输出使得从判别模型到生成模型的梯度更新变得困难。此外,判别模型只能评估完整的序列,而对于部分生成的序列,平衡其当前得分和未来得分(一旦整个序列生成完毕)则非易事。本文提出了一种称为 SeqGAN 的序列生成框架,以解决这些问题。将数据生成器建模为强化学习(Reinforcement Learning, RL)中的随机策略,SeqGAN 通过直接执行策略梯度更新绕过了生成器的不可微问题。强化学习的奖励信号来自 GAN 判别器对完整序列的评估,并通过蒙特卡洛搜索回传至中间的状态-动作步骤。广泛的实验表明,SeqGAN 在合成数据和实际任务中相对于强大的基线方法有显著改进。