LongPage 소설 추론 데이터 세트
LongPage는 Pageshift-Entertainment가 2025년에 출시한 최초의 포괄적인 데이터 세트로, 복잡한 추론 기능을 갖춘 완전한 소설을 쓸 수 있는 인공지능 모델을 훈련하기 위해 개발되었습니다.
이 데이터셋은 현재 중편소설부터 장편소설까지 약 300권의 책 샘플을 포함하고 있으며, 각 책의 분량은 4만 단어에서 60만 단어 이상에 이릅니다. 데이터 구조는 등장인물 원형, 스토리 아크, 세계관, 장면 분석과 같은 다단계 계획 단서와 대화 밀도, 페이싱, 서사 초점과 같은 구조적 메타데이터를 포함합니다. 각 샘플에는 프롬프트, 사고 사슬, 그리고 완전한 소설 구조(책)가 포함됩니다. 콜드 스타트 지도 학습(Cold-Start Supervised Fine-Tuning)부터 강화 학습(Reinforcement Learning)까지 다양한 학습 프로세스를 지원하여 계층적 추론 기능을 갖춘 대규모 언어 모델을 학습하고 장편 글쓰기의 일관성과 계획을 향상시키는 데 적합합니다.