Ensemble De Données D'alignement De Contexte Long Pour Modèles Volumineux LongAlign 10 000
Date
Taille
URL de publication
Tags
Catégories
LongAlign-10k est un ensemble de données proposé par l'Université Tsinghua pour relever les défis auxquels sont confrontés les grands modèles dans les tâches d'alignement à long contexte. Il contient 10 000 données d'instructions longues d'une longueur comprise entre 8 Ko et 64 Ko.
Au cours du processus de construction, l'ensemble de données puise d'abord des éléments dans neuf domaines différents, notamment des livres, des encyclopédies, des articles universitaires, des codes, etc., puis utilise le grand modèle Claude 2.1 pour générer diverses tâches et réponses dans un contexte long. Cet ensemble de données est conçu pour évaluer les performances de grands modèles dans des contextes longs et leur capacité à suivre des instructions de tâches d'une longueur de 10 000 à 100 000.