HyperAI

Ensemble De Données D'amélioration À Granularité Fine Du Grand Modèle LongCite-45k

Date

il y a 8 mois

Taille

1.7 GB

Organisation

Université Tsinghua

URL de publication

github.com

LongCite-45k est un ensemble de données open source lancé par l'Université Tsinghua en 2024. Il vise à améliorer la crédibilité et la vérifiabilité des grands modèles linguistiques (LLM) dans les tâches de réponse aux questions de texte long. Les résultats pertinents de l'article sontLongCite : permettre aux LLM de générer des citations précises dans le cadre d'un contrôle qualité approfondi".

L'ensemble de données contient 44 600 données de questions-réponses de haute qualité avec des citations au niveau des phrases, prend en charge le traitement de texte long avec une longueur maximale de 128 000 jetons et permet aux utilisateurs de vérifier l'exactitude des réponses du modèle en générant des citations au niveau des phrases à granularité fine.

LongCite-45k.torrent
Partage 1Téléchargement 1Terminés 73Téléchargements totaux 68
  • LongCite-45k/
    • README.md
      1.22 KB
    • README.txt
      2.45 KB
      • data/
        • LongCite-45k.zip
          1.7 GB