LongPage小説推論データセット

日付

5日前

組織

ライセンス

CC BY 4.0

ダウンロードヘルプ

LongPage は、複雑な推論機能を備えた完全な小説を書くための人工知能モデルをトレーニングするために、Pageshift-Entertainment が 2025 年にリリースした最初の包括的なデータセットです。

このデータセットには現在、中編小説から長編小説まで、約300冊の書籍のサンプルが含まれており、各書籍の語数は4万語から60万語を超えます。データ構造には、キャラクターアーキタイプ、ストーリーアーク、世界ルール、シーンの内訳といった多層的な計画の手がかりに加え、会話の密度、ペース、物語の焦点といった構造メタデータが含まれています。各サンプルには、プロンプト、思考の連鎖、そして小説全体の構造(書籍)が含まれています。コールドスタートによる教師ありファインチューニングから強化学習まで、学習プロセスをサポートしており、階層的推論機能を備えた大規模言語モデルの学習や、長編文章の一貫性と計画性の向上に適しています。

LongPage小説推論データセット | データセット | HyperAI超神経