
摘要
我们提出了TVStoryGen,这是一个故事生成数据集,要求根据简要剧情摘要以及描述相关角色的若干文档,生成详细的电视剧剧集回顾。与现有其他故事生成数据集不同,TVStoryGen中的故事均由专业编剧创作,且包含多个角色之间复杂的互动关系。在该数据集上生成故事,需要结合简要摘要,从冗长的角色描述文档中提取相关信息。此外,我们提出在该数据集上训练逆向模型,以评估生成故事的忠实度。TVStoryGen的数据来源于粉丝贡献的网站,共收集了26,000条剧集回顾,平均每条包含1868.7个词元(tokens)。实证研究表明,采用分层式故事生成方法,使用“理想内容选择器”(oracle content selectors)来选取角色描述的神经网络模型在自动评估指标上表现最佳,充分展现了本数据集在推动带约束条件的故事生成研究方面的潜力。定性分析表明,表现最佳的模型有时仍会生成与简要摘要不符的内容,这为未来研究指明了具有前景的方向。