4ヶ月前

概要

大規模言語モデル（LLM）は近年、自律的エージェントとしての強力な能力を示しており、推論、ツール活用、逐次的意思決定において有望な成果を上げている。これまでのベンチマークは、ソフトウェア工学や科学的発見といった分野におけるLLMエージェントの評価に焦点を当ててきたが、経済的価値と高リスクな意思決定に直結する金融分野は、依然として十分に探求されていない。既存の金融分野のベンチマークは主に、質問応答形式による静的知識の検証にとどまっているが、こうした手法は株式取引の動的で反復的な性質を捉えきれていない。このギャップを埋めるために、本研究では実際の複数か月にわたる株式取引環境を想定した、汚染のない（contamination-free）ベンチマーク「StockBench」を提案する。このベンチマークでは、エージェントに毎日の市場シグナル（価格、企業の財務指標、ニュースなど）が提供され、順次「購入」「売却」「保有」の意思決定を下す必要がある。性能評価は、累積リターン、最大ドローダウン、Sortino比などの金融指標を用いて行われる。最先端のプロプライエタリ型モデル（例：GPT-5、Claude-4）およびオープンウェイトモデル（例：Qwen3、Kimi-K2、GLM-4.5）を対象とした評価の結果、多くのLLMエージェントが単純な「購入して保有」戦略を上回ることができない一方で、いくつかのモデルがより高いリターンを達成し、リスクをより効果的に管理する可能性を示している。これらの結果は、LLMを活用した金融エージェントの開発における課題と可能性を浮き彫りにし、静的な金融知識の習得に優れているからといって、成功する取引戦略を構築できるわけではないことを示している。本研究では、再現性の確保と今後の研究を促進するため、StockBenchをオープンソースとして公開する。

ソースPDF