Command Palette

Search for a command to run...

1ヶ月前

StockBench:大規模言語モデルエージェントは現実の市場で株式を利益を上げて取引できるか?

Yanxu Chen Zijun Yao Yantao Liu Jin Ye Jianing Yu Lei Hou Juanzi Li

StockBench:大規模言語モデルエージェントは現実の市場で株式を利益を上げて取引できるか?

要約

大規模言語モデル(LLM)は近年、自律的エージェントとしての強力な能力を示しており、推論、ツール活用、逐次的意思決定において有望な成果を上げている。これまでのベンチマークは、ソフトウェア工学や科学的発見といった分野におけるLLMエージェントの評価に焦点を当ててきたが、経済的価値と高リスクな意思決定に直結する金融分野は、依然として十分に探求されていない。既存の金融分野のベンチマークは主に、質問応答形式による静的知識の検証にとどまっているが、こうした手法は株式取引の動的で反復的な性質を捉えきれていない。このギャップを埋めるために、本研究では実際の複数か月にわたる株式取引環境を想定した、汚染のない(contamination-free)ベンチマーク「StockBench」を提案する。このベンチマークでは、エージェントに毎日の市場シグナル(価格、企業の財務指標、ニュースなど)が提供され、順次「購入」「売却」「保有」の意思決定を下す必要がある。性能評価は、累積リターン、最大ドローダウン、Sortino比などの金融指標を用いて行われる。最先端のプロプライエタリ型モデル(例:GPT-5、Claude-4)およびオープンウェイトモデル(例:Qwen3、Kimi-K2、GLM-4.5)を対象とした評価の結果、多くのLLMエージェントが単純な「購入して保有」戦略を上回ることができない一方で、いくつかのモデルがより高いリターンを達成し、リスクをより効果的に管理する可能性を示している。これらの結果は、LLMを活用した金融エージェントの開発における課題と可能性を浮き彫りにし、静的な金融知識の習得に優れているからといって、成功する取引戦略を構築できるわけではないことを示している。本研究では、再現性の確保と今後の研究を促進するため、StockBenchをオープンソースとして公開する。

AI で AI を構築

アイデアからローンチまで — 無料の AI 共同コーディング、すぐに使える環境、最適価格の GPU で AI 開発を加速。

AI 共同コーディング
すぐに使える GPU
最適価格
今すぐ始める

Hyper Newsletters

最新情報を購読する
北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします
メール配信サービスは MailChimp によって提供されています
StockBench:大規模言語モデルエージェントは現実の市場で株式を利益を上げて取引できるか? | 論文 | HyperAI超神経