HyperAIHyperAI

Command Palette

Search for a command to run...

没有完美的指标:视觉叙事中的对抗奖励学习

Xin Wang* Wenhui Chen* Yuan-Fang Wang William Yang Wang

摘要

尽管在视觉描述生成方面已经取得了令人印象深刻的结果,但从照片流中生成抽象故事仍然是一个尚未充分开发的问题。与描述不同,故事具有更加丰富的语言风格,并包含许多图像中未出现的想象概念。因此,这对行为克隆算法提出了挑战。此外,由于自动评估指标在评价故事质量方面的局限性,带有手工设计奖励的强化学习方法也难以实现整体性能的提升。为此,我们提出了一种对抗性奖励学习(Adversarial REward Learning, AREL)框架,该框架从人类演示中学习隐式奖励函数,然后利用所学的奖励函数优化策略搜索。虽然自动评估显示我们的方法在克隆专家行为方面相比现有最佳方法(State-of-the-Art, SOTA)有轻微的性能提升,但人工评估表明,我们的方法在生成更接近人类的故事方面比现有最佳系统实现了显著改进。


用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码
开箱即用的 GPU
最优定价

HyperAI Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
没有完美的指标:视觉叙事中的对抗奖励学习 | 论文 | HyperAI超神经