HyperAIHyperAI

Command Palette

Search for a command to run...

EconLogicQA: Eine Frage-Antwort-Benchmark für die Bewertung großer Sprachmodelle in der ökonomischen sequentiellen Schlussfolgerung

Yinzhu Quan Zefang Liu

Zusammenfassung

In dieser Arbeit stellen wir EconLogicQA vor, eine anspruchsvolle Benchmark, die entwickelt wurde, um die sequenziellen Schlussfolgerungsfähigkeiten großer Sprachmodelle (LLMs) in den komplexen Bereichen der Wirtschaftswissenschaften, des Unternehmensmanagements und der Lieferkettengestaltung zu bewerten. Im Gegensatz zu traditionellen Benchmarks, die einzelne nachfolgende Ereignisse vorhersagen, stellt EconLogicQA eine größere Herausforderung dar: Es verlangt von Modellen, mehrere miteinander verbundene Ereignisse zu erkennen und zu ordnen, um die Komplexität wirtschaftlicher Logiken abzubilden. EconLogicQA besteht aus einer Vielzahl von Szenarien mit mehreren Ereignissen, die aus wirtschaftswissenschaftlichen Artikeln abgeleitet sind und ein tiefgründiges Verständnis sowohl zeitlicher als auch logischer Ereignisbeziehungen erfordern. Durch umfassende Evaluierungen zeigen wir, dass EconLogicQA die Fähigkeiten eines LLMs effektiv misst, die sequenziellen Komplexitäten in wirtschaftlichen Kontexten zu meistern. Wir geben eine detaillierte Beschreibung des EconLogicQA-Datensatzes und präsentieren die Ergebnisse der Bewertung des Benchmarks anhand verschiedener führender LLMs, sodass wir einen umfassenden Überblick über deren sequenzielle Schlussfolgerungspotenziale in wirtschaftlichen Kontexten bieten. Unser Benchmark-Datensatz ist unter https://huggingface.co/datasets/yinzhu-quan/econ_logic_qa verfügbar.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp