HyperAI

Persona Hub: Ein Datensatz Mit 1 Milliarde Verschiedener Personas, Automatisch Kuratiert Aus Webdaten

Datum

vor einem Jahr

Größe

56.03 MB

Organisation

Tencent AI Lab

Veröffentlichungs-URL

huggingface.co

特色图像

Einführung in den Datensatz

Der Datensatz ist eine Sammlung von 1 Milliarde verschiedener Zeichen, die automatisch aus Netzwerkdaten organisiert werden, die 2024 vom Tencent Seattle Artificial Intelligence Laboratory gestartet wurden. Diese 1 Milliarde Zeichen (etwa 13% der Weltbevölkerung) dienen als verteilter Träger des Weltwissens und können fast alle in LLM enthaltenen Perspektiven nutzen, wodurch die groß angelegte Erstellung vielfältiger synthetischer Daten für verschiedene Szenarien erleichtert wird. Durch die Demonstration der Anwendungsfälle von PERSONA HUB bei der groß angelegten Synthese hochwertiger mathematischer und logischer Denkprobleme, Anweisungen (d. h. Benutzereingaben), wissensreicher Texte, Spiel-NPCs und Tools (Funktionalität) hat das Forschungsteam gezeigt, dass die personagesteuerte Datensynthese vielseitig, skalierbar, flexibel und benutzerfreundlich ist und das Potenzial hat, einen Paradigmenwechsel bei der Erstellung und praktischen Anwendung synthetischer Daten herbeizuführen, der tiefgreifende Auswirkungen auf die Forschung und Entwicklung des LLM haben könnte.

Das entsprechende Papier istSkalierung der Erstellung synthetischer Daten mit 1.000.000.000 Personas"

Datensatzhintergrund

Tencent Seattle AI Lab führt einen neuartigen, zeichengesteuerten Ansatz zur Datensynthese ein, der mehrere Sichtweisen in einem großen Sprachmodell (LLM) nutzt, um vielfältige synthetische Daten zu erstellen. Die Forscher haben ein System namens Persona Hub entwickelt, das automatisch 1 Milliarde verschiedene Personas (etwa 131TP3B der Weltbevölkerung) aus Online-Daten zusammenstellt. Diese Charaktere sind als verteilte Träger des Weltwissens in der Lage, fast alle in LLM enthaltenen Perspektiven zu berühren und so die Erstellung vielfältiger synthetischer Daten für verschiedene Szenarien im großen Maßstab zu erleichtern. In diesem technischen Bericht werden auch die umfassenderen Auswirkungen und ethischen Probleme erörtert, die sich aus der Verwendung von Persona Hub ergeben können, wie etwa Datensicherheit, Bedrohungen für die führende Position bestehender LLMs und die Möglichkeit, die reale Gesellschaft in einer virtuellen Welt zu simulieren.

PersonaHub.torrent
Seeding 2Herunterladen 0Abgeschlossen 105Gesamtdownloads 124
  • PersonaHub/
    • README.md
      2.42 KB
    • README.txt
      4.83 KB
      • data/
        • personahub.zip
          56.03 MB