LongPage 长篇小说推理数据集

日期

5 天前

机构

发布地址

huggingface.co

许可协议

CC BY 4.0

下载帮助

LongPage 是由 Pageshift-Entertainment 于 2025 年发布的首个用于训练人工智能模型撰写具备复杂推理能力的完整长篇小说的综合性数据集。

该数据集包含目前约 300 本书籍样本,每本书的篇幅在 40,000 到 600,000 余词之间,覆盖中篇到史诗级长篇小说。数据结构包含角色原型(character archetypes)、剧情弧(story arcs)、世界规则(world rules)、场景拆解(scene breakdown)等多层次规划线索,以及对话密度、节奏、叙事重点等结构性元数据。每个样本包含提示词(prompt)、思考链(thinking),以及完整的小说本体结构(book),可支持冷启动监督微调到强化学习训练流程,适用于训练具备层级推理能力的大规模语言模型和提升长篇创作连贯性与规划性。