vor 2 Monaten

EconLogicQA: Eine Frage-Antwort-Benchmark für die Bewertung großer Sprachmodelle in der ökonomischen sequentiellen Schlussfolgerung

Yinzhu Quan; Zefang Liu

Abstract

In dieser Arbeit stellen wir EconLogicQA vor, eine anspruchsvolle Benchmark, die entwickelt wurde, um die sequenziellen Schlussfolgerungsfähigkeiten großer Sprachmodelle (LLMs) in den komplexen Bereichen der Wirtschaftswissenschaften, des Unternehmensmanagements und der Lieferkettengestaltung zu bewerten. Im Gegensatz zu traditionellen Benchmarks, die einzelne nachfolgende Ereignisse vorhersagen, stellt EconLogicQA eine größere Herausforderung dar: Es verlangt von Modellen, mehrere miteinander verbundene Ereignisse zu erkennen und zu ordnen, um die Komplexität wirtschaftlicher Logiken abzubilden. EconLogicQA besteht aus einer Vielzahl von Szenarien mit mehreren Ereignissen, die aus wirtschaftswissenschaftlichen Artikeln abgeleitet sind und ein tiefgründiges Verständnis sowohl zeitlicher als auch logischer Ereignisbeziehungen erfordern. Durch umfassende Evaluierungen zeigen wir, dass EconLogicQA die Fähigkeiten eines LLMs effektiv misst, die sequenziellen Komplexitäten in wirtschaftlichen Kontexten zu meistern. Wir geben eine detaillierte Beschreibung des EconLogicQA-Datensatzes und präsentieren die Ergebnisse der Bewertung des Benchmarks anhand verschiedener führender LLMs, sodass wir einen umfassenden Überblick über deren sequenzielle Schlussfolgerungspotenziale in wirtschaftlichen Kontexten bieten. Unser Benchmark-Datensatz ist unter https://huggingface.co/datasets/yinzhu-quan/econ_logic_qa verfügbar.