Nemotron-Personas-Zeichendatensatz
Datum
vor 12 Tagen
Veröffentlichungs-URL
Kategorien
Nemotron-Personas ist ein 2025 von NVIDIA veröffentlichter Charakterdatensatz. Er enthält künstlich synthetisierte Charaktere basierend auf realen demografischen Daten, geografischer Verteilung und Persönlichkeitsmerkmalen und soll die Vielfalt und den Reichtum der Bevölkerung erfassen. Es ist der erste Datensatz seiner Art, der Statistiken zu Attributen wie Name, Geschlecht, Alter, Herkunft, Familienstand, Bildung, Beruf und Wohnort enthält.
Der Datensatz umfasst:
- 100.000 Datensätze mit 22 Feldern: 6 Persona-Felder und 16 Kontextfelder
- Etwa 54 Millionen Token, davon etwa 23,6 Millionen charakterbezogen
- Deckt mehrere Dimensionen ab, darunter Demografie, geografische Verteilung und Persönlichkeitsmerkmale
- Über 560 verschiedene Jobtypen basierend auf realen Daten zur Jobverteilung