6 个月前

检索增强生成

自然语言处理

Mingda Chen Kevin Gimpel

摘要

我们提出了TVStoryGen，这是一个故事生成数据集，要求根据简要剧情摘要以及描述相关角色的若干文档，生成详细的电视剧剧集回顾。与现有其他故事生成数据集不同，TVStoryGen中的故事均由专业编剧创作，且包含多个角色之间复杂的互动关系。在该数据集上生成故事，需要结合简要摘要，从冗长的角色描述文档中提取相关信息。此外，我们提出在该数据集上训练逆向模型，以评估生成故事的忠实度。TVStoryGen的数据来源于粉丝贡献的网站，共收集了26,000条剧集回顾，平均每条包含1868.7个词元（tokens）。实证研究表明，采用分层式故事生成方法，使用“理想内容选择器”（oracle content selectors）来选取角色描述的神经网络模型在自动评估指标上表现最佳，充分展现了本数据集在推动带约束条件的故事生成研究方面的潜力。定性分析表明，表现最佳的模型有时仍会生成与简要摘要不符的内容，这为未来研究指明了具有前景的方向。

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供

6 个月前

检索增强生成

自然语言处理

Mingda Chen Kevin Gimpel

摘要

我们提出了TVStoryGen，这是一个故事生成数据集，要求根据简要剧情摘要以及描述相关角色的若干文档，生成详细的电视剧剧集回顾。与现有其他故事生成数据集不同，TVStoryGen中的故事均由专业编剧创作，且包含多个角色之间复杂的互动关系。在该数据集上生成故事，需要结合简要摘要，从冗长的角色描述文档中提取相关信息。此外，我们提出在该数据集上训练逆向模型，以评估生成故事的忠实度。TVStoryGen的数据来源于粉丝贡献的网站，共收集了26,000条剧集回顾，平均每条包含1868.7个词元（tokens）。实证研究表明，采用分层式故事生成方法，使用“理想内容选择器”（oracle content selectors）来选取角色描述的神经网络模型在自动评估指标上表现最佳，充分展现了本数据集在推动带约束条件的故事生成研究方面的潜力。定性分析表明，表现最佳的模型有时仍会生成与简要摘要不符的内容，这为未来研究指明了具有前景的方向。

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供