Persona Hub: Ein Datensatz Mit 1 Milliarde Verschiedener Personas, Automatisch Kuratiert Aus Webdaten
Datum
Größe
Veröffentlichungs-URL
Kategorien

Einführung in den Datensatz
Der Datensatz ist eine Sammlung von 1 Milliarde verschiedener Zeichen, die automatisch aus Netzwerkdaten organisiert werden, die 2024 vom Tencent Seattle Artificial Intelligence Laboratory gestartet wurden. Diese 1 Milliarde Zeichen (etwa 13% der Weltbevölkerung) dienen als verteilter Träger des Weltwissens und können fast alle in LLM enthaltenen Perspektiven nutzen, wodurch die groß angelegte Erstellung vielfältiger synthetischer Daten für verschiedene Szenarien erleichtert wird. Durch die Demonstration der Anwendungsfälle von PERSONA HUB bei der groß angelegten Synthese hochwertiger mathematischer und logischer Denkprobleme, Anweisungen (d. h. Benutzereingaben), wissensreicher Texte, Spiel-NPCs und Tools (Funktionalität) hat das Forschungsteam gezeigt, dass die personagesteuerte Datensynthese vielseitig, skalierbar, flexibel und benutzerfreundlich ist und das Potenzial hat, einen Paradigmenwechsel bei der Erstellung und praktischen Anwendung synthetischer Daten herbeizuführen, der tiefgreifende Auswirkungen auf die Forschung und Entwicklung des LLM haben könnte.
Das entsprechende Papier istSkalierung der Erstellung synthetischer Daten mit 1.000.000.000 Personas"
Datensatzhintergrund
Tencent Seattle AI Lab führt einen neuartigen, zeichengesteuerten Ansatz zur Datensynthese ein, der mehrere Sichtweisen in einem großen Sprachmodell (LLM) nutzt, um vielfältige synthetische Daten zu erstellen. Die Forscher haben ein System namens Persona Hub entwickelt, das automatisch 1 Milliarde verschiedene Personas (etwa 131TP3B der Weltbevölkerung) aus Online-Daten zusammenstellt. Diese Charaktere sind als verteilte Träger des Weltwissens in der Lage, fast alle in LLM enthaltenen Perspektiven zu berühren und so die Erstellung vielfältiger synthetischer Daten für verschiedene Szenarien im großen Maßstab zu erleichtern. In diesem technischen Bericht werden auch die umfassenderen Auswirkungen und ethischen Probleme erörtert, die sich aus der Verwendung von Persona Hub ergeben können, wie etwa Datensicherheit, Bedrohungen für die führende Position bestehender LLMs und die Möglichkeit, die reale Gesellschaft in einer virtuellen Welt zu simulieren.