Persona Hub : Un Ensemble De Données D'un Milliard De Personnalités Différentes, Automatiquement Organisées À Partir De Données Web
Date
Taille
URL de publication
Catégories

Introduction à l'ensemble de données
L'ensemble de données est une collection d'un milliard de caractères différents organisés automatiquement à partir de données réseau lancées par Tencent Seattle Artificial Intelligence Laboratory en 2024. Ces 1 milliard de caractères (environ 13% de la population mondiale totale) servent de support distribué de connaissances mondiales et peuvent exploiter presque toutes les perspectives encapsulées dans LLM, facilitant ainsi la création à grande échelle de données synthétiques diverses pour divers scénarios. En démontrant les cas d'utilisation de PERSONA HUB dans la synthèse à grande échelle de problèmes de raisonnement mathématique et logique de haute qualité, d'instructions (c'est-à-dire d'invites utilisateur), de textes riches en connaissances, de PNJ de jeu et d'outils (fonctionnalités), l'équipe de recherche a démontré que la synthèse de données pilotée par les personnages est polyvalente, évolutive, flexible et facile à utiliser, avec le potentiel de provoquer un changement de paradigme dans la création de données synthétiques et l'application pratique, ce qui peut avoir un impact profond sur la recherche et le développement du LLM.
Le document pertinent estMise à l'échelle de la création de données synthétiques avec 1 000 000 000 de personas"
Contexte du jeu de données
Tencent Seattle AI Lab présente une nouvelle approche de synthèse de données axée sur les caractères qui exploite plusieurs points de vue dans un grand modèle de langage (LLM) pour créer diverses données synthétiques. Les chercheurs ont mis au point un système appelé Persona Hub qui rassemble automatiquement 1 milliard de personnalités différentes (environ 13% de la population mondiale) à partir de données en ligne. Ces personnages, en tant que porteurs distribués de connaissances mondiales, sont capables de toucher presque toutes les perspectives incluses dans le LLM, facilitant ainsi la création de données synthétiques diverses pour divers scénarios à grande échelle. Ce rapport technique aborde également les implications plus larges et les problèmes éthiques qui peuvent découler de l’utilisation de Persona Hub, tels que la sécurité des données, les menaces pesant sur la position de leader des LLM existants et la possibilité de simuler la société réelle dans un monde virtuel.