
摘要
尽管在视觉描述生成方面已经取得了令人印象深刻的结果,但从照片流中生成抽象故事仍然是一个尚未充分开发的问题。与描述不同,故事具有更加丰富的语言风格,并包含许多图像中未出现的想象概念。因此,这对行为克隆算法提出了挑战。此外,由于自动评估指标在评价故事质量方面的局限性,带有手工设计奖励的强化学习方法也难以实现整体性能的提升。为此,我们提出了一种对抗性奖励学习(Adversarial REward Learning, AREL)框架,该框架从人类演示中学习隐式奖励函数,然后利用所学的奖励函数优化策略搜索。虽然自动评估显示我们的方法在克隆专家行为方面相比现有最佳方法(State-of-the-Art, SOTA)有轻微的性能提升,但人工评估表明,我们的方法在生成更接近人类的故事方面比现有最佳系统实现了显著改进。