E-KAR Chinesische Version Des Interpretierbaren Wissensintensiven Benchmarks Für Analoges Denken
Datum
Größe
E-KAR steht für Benchmark for Explainable Knowledge-intensive Analogical Reasoning, ein Benchmark für erklärbares wissensintensives analoges Denken.
Die Fähigkeit, Analogien zu erkennen, ist grundlegend für die menschliche Wahrnehmung. Vorhandene Benchmarks für Wortanalogietests geben keinen Aufschluss über den zugrunde liegenden Prozess des analogen Denkens in neuronalen Modellen. Aus der Überzeugung heraus, dass Modelle mit Argumentationskraft auf guten Gründen basieren sollten,Wir schlagen den ersten Benchmark für sachkundiges, interpretierbares analoges Denken (E-KAR) vor.
Unser Benchmark-Datensatz besteht aus 1.655 (auf Chinesisch) und 1.251 (auf Englisch) Fragen aus der Beamtenprüfung. Die Lösung dieser Probleme erfordert umfangreiches Hintergrundwissen. Wir haben ein Freitext-Erklärungsschema entwickelt, um zu erläutern, ob analoges Denken angewendet werden sollte, und jede Frage und jede Kandidatenantwort manuell kommentiert.
Empirische Ergebnisse zeigen, dass für einige moderne ModelleDieser Benchmark-Datensatz stellt sowohl für die Erklärungsgenerierung als auch für die Beantwortung von Analogiefragen eine große Herausforderung dar. Dies führte zu weiteren Untersuchungen.