HyperAIHyperAI

Command Palette

Search for a command to run...

Persona Hub: Ein Datensatz Mit 1 Milliarde Verschiedener Personas, Automatisch Kuratiert Aus Webdaten

Date

vor einem Jahr

Size

56.03 MB

Organization

Tencent AI Lab

Paper URL

arxiv.org

Featured Image

Einführung in den Datensatz

Der Datensatz ist eine Sammlung von 1 Milliarde verschiedener Zeichen, die automatisch aus Netzwerkdaten organisiert werden, die 2024 vom Tencent Seattle Artificial Intelligence Laboratory gestartet wurden. Diese 1 Milliarde Zeichen (etwa 13% der Weltbevölkerung) dienen als verteilter Träger des Weltwissens und können fast alle in LLM enthaltenen Perspektiven nutzen, wodurch die groß angelegte Erstellung vielfältiger synthetischer Daten für verschiedene Szenarien erleichtert wird. Durch die Demonstration der Anwendungsfälle von PERSONA HUB bei der groß angelegten Synthese hochwertiger mathematischer und logischer Denkprobleme, Anweisungen (d. h. Benutzereingaben), wissensreicher Texte, Spiel-NPCs und Tools (Funktionalität) hat das Forschungsteam gezeigt, dass die personagesteuerte Datensynthese vielseitig, skalierbar, flexibel und benutzerfreundlich ist und das Potenzial hat, einen Paradigmenwechsel bei der Erstellung und praktischen Anwendung synthetischer Daten herbeizuführen, der tiefgreifende Auswirkungen auf die Forschung und Entwicklung des LLM haben könnte.

Das entsprechende Papier istSkalierung der Erstellung synthetischer Daten mit 1.000.000.000 Personas"

Datensatzhintergrund

Tencent Seattle AI Lab führt einen neuartigen, zeichengesteuerten Ansatz zur Datensynthese ein, der mehrere Sichtweisen in einem großen Sprachmodell (LLM) nutzt, um vielfältige synthetische Daten zu erstellen. Die Forscher haben ein System namens Persona Hub entwickelt, das automatisch 1 Milliarde verschiedene Personas (etwa 131TP3B der Weltbevölkerung) aus Online-Daten zusammenstellt. Diese Charaktere sind als verteilte Träger des Weltwissens in der Lage, fast alle in LLM enthaltenen Perspektiven zu berühren und so die Erstellung vielfältiger synthetischer Daten für verschiedene Szenarien im großen Maßstab zu erleichtern. In diesem technischen Bericht werden auch die umfassenderen Auswirkungen und ethischen Probleme erörtert, die sich aus der Verwendung von Persona Hub ergeben können, wie etwa Datensicherheit, Bedrohungen für die führende Position bestehender LLMs und die Möglichkeit, die reale Gesellschaft in einer virtuellen Welt zu simulieren.

PersonaHub.torrent
Seeding 1Downloading 0Completed 232Total Downloads 291
  • PersonaHub/
    • README.md
      2.42 KB
    • README.txt
      4.83 KB
      • data/
        • personahub.zip
          56.03 MB

Build AI with AI

From idea to launch — accelerate your AI development with free AI co-coding, out-of-the-box environment and best price of GPUs.

AI Co-coding
Ready-to-use GPUs
Best Pricing

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp