HyperAI

Nemotron-Personas-Zeichendatensatz

Datum

vor 12 Tagen

Organisation

NVIDIA

Veröffentlichungs-URL

huggingface.co

Kategorien

Download-Hilfe

Nemotron-Personas ist ein 2025 von NVIDIA veröffentlichter Charakterdatensatz. Er enthält künstlich synthetisierte Charaktere basierend auf realen demografischen Daten, geografischer Verteilung und Persönlichkeitsmerkmalen und soll die Vielfalt und den Reichtum der Bevölkerung erfassen. Es ist der erste Datensatz seiner Art, der Statistiken zu Attributen wie Name, Geschlecht, Alter, Herkunft, Familienstand, Bildung, Beruf und Wohnort enthält.

Der Datensatz umfasst:

  • 100.000 Datensätze mit 22 Feldern: 6 Persona-Felder und 16 Kontextfelder
  • Etwa 54 Millionen Token, davon etwa 23,6 Millionen charakterbezogen
  • Deckt mehrere Dimensionen ab, darunter Demografie, geografische Verteilung und Persönlichkeitsmerkmale
  • Über 560 verschiedene Jobtypen basierend auf realen Daten zur Jobverteilung