Test Des Time-Benchmark-Datensatzes Für Die Zeitlichen Schlussfolgerungsfähigkeiten Großer Modelle
Datum
Größe
Veröffentlichungs-URL
Lizenz
CC BY 4.0
Kategorien
Test of Time, kurz ToT, ist ein Benchmarktest, der 2024 von Forschern bei Google DeepMind speziell zur Bewertung der zeitlichen Denkfähigkeiten großer Sprachmodelle eingeführt wurde. Es untersucht das zeitliche Verständnis und die Rechenfähigkeiten von LLMs aus zwei unabhängigen Dimensionen. Die relevanten Papierergebnisse sindTest der Zeit: Ein Benchmark zur Bewertung von LLMs zum Thema zeitliches Denken"
Der ToT-Datensatz ist in drei Teilmengen unterteilt: ToT-semantic enthält 1.850 Beispiele, ToT-arithmetic enthält 2.800 Beispiele und ToT-semantic-large enthält 46.480 Beispiele, die die Semantik und Logik des zeitlichen Verständnisses in einem größeren Maßstab messen können.
Datenformat
Die ToT-semantic- und ToT-semantic-large-Datensätze enthalten die folgenden Felder:
- Frage: Enthält den Text der Frage.
- graph_gen_algorithm: Der Name des Graphgenerator-Algorithmus.
- question_type: entspricht einem der 7 Fragetypen im Datensatz.
- sorting_type: entspricht dem auf die Tatsache angewendeten Sortiertyp.
- prompt: Enthält den vollständigen Eingabeaufforderungstext, der zur Auswertung der LLM-Aufgabe verwendet wird.
- Bezeichnung: Die Standardantwort auf die Frage.
Der ToT-Arithmetik-Datensatz enthält drei Felder: Frage, Fragetyp und Bezeichnung.
Datenquelle
ToT wird synthetisch mithilfe öffentlicher Bibliotheken wie NetworkX generiert.
- Zweck: ToT ist in erster Linie für die Verwendung als Test-Set konzipiert.
- verbieten:Die Verwendung von ToT als Trainingssatz ist strengstens untersagt.