HyperAIHyperAI

Command Palette

Search for a command to run...

vor einem Monat

StockBench: Können LLM-Agenten profitabel in realen Aktienmärkten handeln?

Yanxu Chen Zijun Yao Yantao Liu Jin Ye Jianing Yu Lei Hou Juanzi Li

StockBench: Können LLM-Agenten profitabel in realen Aktienmärkten handeln?

Abstract

Große Sprachmodelle (LLMs) haben in jüngster Zeit erhebliche Fähigkeiten als autonome Agenten demonstriert und zeigen großes Potenzial in Bezug auf Schlussfolgerung, Werkzeugnutzung und sequenzielle Entscheidungsfindung. Während frühere Benchmarks LLM-Agenten in Bereichen wie Softwareentwicklung und wissenschaftlicher Entdeckung evaluierten, bleibt der Finanzbereich trotz seiner unmittelbaren Relevanz für wirtschaftlichen Wert und hochriskante Entscheidungsprozesse bisher unterforscht. Bestehende Finanzbenchmarks testen vorwiegend statisches Wissen mittels Frage-Antwort-Aufgaben, reichen jedoch nicht aus, um die dynamische und iterative Natur des Handels angemessen abzubilden. Um diese Lücke zu schließen, stellen wir StockBench vor – ein kontaminationsfreies Benchmark-Tool, das entwickelt wurde, um LLM-Agenten in realistischen, mehrmonatigen Aktienhandelsumgebungen zu evaluieren. Die Agenten erhalten täglich aktualisierte Marktsignale – einschließlich Kurse, Fundamentaldaten und Nachrichten – und müssen sequenziell Kauf-, Verkaufs- oder Halteentscheidungen treffen. Die Leistung wird anhand finanzwirtschaftlicher Metriken wie kumuliertem Ertrag, maximaler Rückgangsrate (Maximum Drawdown) sowie Sortino-Ratio bewertet. Unsere Evaluierung von führenden proprietären Modellen (z. B. GPT-5, Claude-4) und offenen Modellen mit zugänglichen Gewichten (z. B. Qwen3, Kimi-K2, GLM-4.5) zeigt, dass die meisten LLM-Agenten Schwierigkeiten haben, die einfache Benchmark-Strategie „Kauf und Halte“ zu überbieten. Dennoch zeigen mehrere Modelle das Potenzial, höhere Erträge zu erzielen und das Risiko effektiver zu managen. Diese Ergebnisse unterstreichen sowohl die Herausforderungen als auch die Chancen bei der Entwicklung von LLM-gestützten Finanzagenten und zeigen, dass ein hohes Leistungsniveau bei statischen Finanzwissensaufgaben nicht zwangsläufig in erfolgreiche Handelsstrategien übersetzt werden kann. Wir stellen StockBench als Open-Source-Ressource zur Verfügung, um Reproduzierbarkeit zu gewährleisten und zukünftige Forschung in diesem Bereich voranzutreiben.

KI mit KI entwickeln

Von der Idee bis zum Start — beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und den besten GPU-Preisen.

KI-Co-Coding
Sofort einsatzbereit GPUs
Beste Preise
Jetzt starten

Hyper Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp
StockBench: Können LLM-Agenten profitabel in realen Aktienmärkten handeln? | Forschungsarbeiten | HyperAI