Ensemble De Données De Raisonnement Romanesque LongPage
Date
URL de publication
Licence
CC BY 4.0
LongPage est le premier ensemble de données complet publié par Pageshift-Entertainment en 2025 pour former des modèles d'intelligence artificielle afin d'écrire des romans complets dotés de capacités de raisonnement complexes.
Cet ensemble de données contient actuellement des échantillons d'environ 300 livres, chacun allant de 40 000 à plus de 600 000 mots, allant de la nouvelle au roman épique. La structure des données inclut des indices de planification multi-niveaux tels que les archétypes de personnages, les arcs narratifs, les règles du monde et la répartition des scènes, ainsi que des métadonnées structurelles telles que la densité des dialogues, le rythme et l'axe narratif. Chaque échantillon comprend une invite, une chaîne de pensée et la structure complète du roman (livre). Il prend en charge les processus d'apprentissage, du réglage fin supervisé à froid à l'apprentissage par renforcement, ce qui le rend idéal pour l'apprentissage de modèles linguistiques à grande échelle dotés de capacités de raisonnement hiérarchique et pour améliorer la cohérence et la planification des écrits longs.