HyperAI

RedGPT : Un Modèle De Génération De Dialogue Enrichi Par Des Informations De Référence

RedGPT (Référence-Éclairé-Dialogue GPT) Il s’agit d’un modèle de génération de dialogue enrichi par des informations de référence.

Comme nous le savons tous, l’exactitude des faits est une faiblesse majeure de ChatGPT et un défi majeur auquel sont confrontés tous les collègues qui tentent de reproduire ChatGPT. Pour améliorer la précision des faits, vous pouvez annoter une grande quantité de données de conversation factuelles (telles que les personnes, la technologie, les soins médicaux, le droit et l'art) pour affiner le modèle GPT. Pour éviter le coût élevé de l’annotation manuelle, nous proposons une méthode permettant de générer automatiquement des dialogues factuels et de rendre une partie de nos données accessibles au public. Le premier lot de données que nous avons publié (RedGPT-Dataset-V1-CN) contient un total de 50 000 conversations multi-tours en chinois.

Introduction à la méthode

L'objectif de cet ensemble de données est de générer automatiquement des dialogues factuels multi-tours massifs et de haute qualité pour former GPT et améliorer son exactitude factuelle.

Nous générons automatiquement des données en utilisant la méthode suivante :

  1. Nous collectons des documents factuels de haute qualité, que nous appelons Référence. Les sources peuvent être des livres électroniques, Wikipédia et des sites Web verticaux de haute qualité. Le document doit couvrir autant de sujets que possible, y compris, mais sans s’y limiter, les personnes, les institutions, la technologie, les soins médicaux, le droit, les sciences humaines, l’économie, la maison, les automobiles, les voyages, l’alimentation, la mode, les sports, l’éducation et les animaux de compagnie.
  2. Utilisez le LLM existant (comme l'API payante) pour générer des dialogues multi-tours. L'entrée est une référence et l'invite ressemble à quelque chose comme « Veuillez générer plusieurs séries de questions et réponses basées sur cet article. » L'API générera un dialogue multi-tours. Cette méthode convertit des documents qui étaient initialement uniquement adaptés à la pré-formation en dialogues à plusieurs tours qui peuvent être peaufinés.
  3. À l’étape 2, un grand nombre de dyades Référence-Dialogue sont collectées. En utilisant la référence et l'invite comme entrée et le dialogue comme cible, affinez un modèle GPT (peut être basé sur une base pré-entraînée de LLaMA ou BLOOM). Nous appelons le modèle affiné Référence-Dialogue-Éclairé GPT,abréviation RedGPT . Avec RedGPT, vous pouvez générer plusieurs cycles de dialogue basés sur la référence et obtenir des quantités massives de données.

Pour reproduire cette méthode, veuillez noter 2 points clés :

  1. La qualité et l'étendue de la référence. La qualité du contenu de référence doit être élevée, comme les pages de sites Web verticaux de haute qualité tels que les sites médicaux et les entrées non obscures sur Wikipédia, et les pages Web doivent être nettoyées. L’étendue de la référence doit être large et ne peut être limitée à une seule catégorie verticale ou à un seul site Web.
  2. Lorsque vous appelez un LLM existant, vous devez rédiger une invite et essayer soigneusement différentes invites pour que le dialogue multi-tours généré par le LLM réponde à vos attentes.
RedGPT.torrent
Partage 2Téléchargement 0Terminés 118Téléchargements totaux 275
  • RedGPT/
    • README.md
      2.94 KB
    • README.txt
      5.88 KB
      • data/
        • LICENSE
          16.97 KB
        • README.md
          28.68 KB
        • README_EN.md
          41.13 KB
        • RedGPT-Dataset-V1-CN.json.zip
          63.3 MB