HyperAIHyperAI

Command Palette

Search for a command to run...

Persona Hub : Un Ensemble De Données d'un Milliard De Personnalités Différentes, Automatiquement Organisées À Partir De Données Web

Date

il y a un an

Size

56.03 MB

Organization

Laboratoire d'IA Tencent

Paper URL

arxiv.org

Featured Image

Introduction à l'ensemble de données

L'ensemble de données est une collection d'un milliard de caractères différents organisés automatiquement à partir de données réseau lancées par Tencent Seattle Artificial Intelligence Laboratory en 2024. Ces 1 milliard de caractères (environ 13% de la population mondiale totale) servent de support distribué de connaissances mondiales et peuvent exploiter presque toutes les perspectives encapsulées dans LLM, facilitant ainsi la création à grande échelle de données synthétiques diverses pour divers scénarios. En démontrant les cas d'utilisation de PERSONA HUB dans la synthèse à grande échelle de problèmes de raisonnement mathématique et logique de haute qualité, d'instructions (c'est-à-dire d'invites utilisateur), de textes riches en connaissances, de PNJ de jeu et d'outils (fonctionnalités), l'équipe de recherche a démontré que la synthèse de données pilotée par les personnages est polyvalente, évolutive, flexible et facile à utiliser, avec le potentiel de provoquer un changement de paradigme dans la création de données synthétiques et l'application pratique, ce qui peut avoir un impact profond sur la recherche et le développement du LLM.

Le document pertinent estMise à l'échelle de la création de données synthétiques avec 1 000 000 000 de personas"

Contexte du jeu de données

Tencent Seattle AI Lab présente une nouvelle approche de synthèse de données axée sur les caractères qui exploite plusieurs points de vue dans un grand modèle de langage (LLM) pour créer diverses données synthétiques. Les chercheurs ont mis au point un système appelé Persona Hub qui rassemble automatiquement 1 milliard de personnalités différentes (environ 13% de la population mondiale) à partir de données en ligne. Ces personnages, en tant que porteurs distribués de connaissances mondiales, sont capables de toucher presque toutes les perspectives incluses dans le LLM, facilitant ainsi la création de données synthétiques diverses pour divers scénarios à grande échelle. Ce rapport technique aborde également les implications plus larges et les problèmes éthiques qui peuvent découler de l’utilisation de Persona Hub, tels que la sécurité des données, les menaces pesant sur la position de leader des LLM existants et la possibilité de simuler la société réelle dans un monde virtuel.

PersonaHub.torrent
Seeding 1Downloading 0Completed 232Total Downloads 291
  • PersonaHub/
    • README.md
      2.42 KB
    • README.txt
      4.83 KB
      • data/
        • personahub.zip
          56.03 MB

Build AI with AI

From idea to launch — accelerate your AI development with free AI co-coding, out-of-the-box environment and best price of GPUs.

AI Co-coding
Ready-to-use GPUs
Best Pricing

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp