Ensemble De Données D'amélioration À Granularité Fine Du Grand Modèle LongCite-45k
Date
Taille
URL de publication
LongCite-45k est un ensemble de données open source lancé par l'Université Tsinghua en 2024. Il vise à améliorer la crédibilité et la vérifiabilité des grands modèles linguistiques (LLM) dans les tâches de réponse aux questions de texte long. Les résultats pertinents de l'article sontLongCite : permettre aux LLM de générer des citations précises dans le cadre d'un contrôle qualité approfondi".
L'ensemble de données contient 44 600 données de questions-réponses de haute qualité avec des citations au niveau des phrases, prend en charge le traitement de texte long avec une longueur maximale de 128 000 jetons et permet aux utilisateurs de vérifier l'exactitude des réponses du modèle en générant des citations au niveau des phrases à granularité fine.
