LongAlign 10K Großes Modell, Langer Kontext-Alignment-Datensatz
Datum
Größe
Veröffentlichungs-URL
Tags
Kategorien
LongAlign-10k ist ein von der Tsinghua-Universität vorgeschlagener Datensatz, der die Herausforderungen bewältigen soll, denen große Modelle bei Ausrichtungsaufgaben mit großem Kontext gegenüberstehen. Es enthält 10.000 lange Befehlsdaten mit einer Länge zwischen 8k und 64k.
Während des Konstruktionsprozesses zieht der Datensatz zunächst Materialien aus neun verschiedenen Bereichen heran, darunter Bücher, Enzyklopädien, wissenschaftliche Arbeiten, Codes usw., und verwendet dann das große Modell Claude 2.1, um in einem langen Kontext verschiedene Aufgaben und Antworten zu generieren. Dieser Datensatz dient dazu, die Leistung großer Modelle in langen Kontexten und ihre Fähigkeit, Aufgabenanweisungen mit einer Länge von 10.000 bis 100.000 zu befolgen, zu bewerten.