Command Palette
Search for a command to run...
StockBench : Les agents basés sur les modèles linguistiques peuvent-ils trader des actions avec profit sur les marchés réels ?
Yanxu Chen Zijun Yao Yantao Liu Jin Ye Jianing Yu Lei Hou Juanzi Li

Résumé
Les modèles linguistiques massifs (LLM) ont récemment fait preuve de capacités prometteuses en tant qu’agents autonomes, notamment en matière de raisonnement, d’utilisation d’outils et de prise de décisions séquentielles. Bien que des évaluations antérieures aient examiné les performances des LLM dans des domaines tels que l’ingénierie logicielle ou la découverte scientifique, le domaine financier reste largement sous-exploité, malgré son importance directe pour la création de valeur économique et les décisions à haut risque. Les benchmarks financiers existants évaluent principalement des connaissances statiques via des questions-réponses, mais ils échouent à capturer la nature dynamique et itérative du trading. Pour combler cette lacune, nous introduisons StockBench, un benchmark exempt de contamination conçu pour évaluer les agents LLM dans des environnements de trading boursier réalistes sur plusieurs mois. Les agents reçoivent chaque jour des signaux de marché — prix, fondamentaux, actualités — et doivent prendre des décisions séquentielles d’achat, de vente ou de détention. Leur performance est mesurée à l’aide de métriques financières telles que le rendement cumulé, le maximum de drawdown et le ratio de Sortino. Notre évaluation des modèles de pointe propriétaires (par exemple GPT-5, Claude-4) et à poids ouverts (par exemple Qwen3, Kimi-K2, GLM-4.5) révèle que, bien que la majorité des agents LLM peinent à surpasser la stratégie de base « achat et détenir », certains modèles montrent un potentiel à générer des rendements supérieurs tout en maîtrisant mieux le risque. Ces résultats mettent en lumière à la fois les défis et les opportunités liés au développement d’agents financiers pilotés par des LLM, en montrant qu’une excellente performance sur des tâches de connaissance financière statique ne se traduit pas nécessairement par une stratégie de trading réussie. Nous mettons StockBench à disposition en tant que ressource open source afin de favoriser la reproductibilité et d’accélérer les recherches futures dans ce domaine.
Construire l'IA avec l'IA
De l'idée au lancement — accélérez votre développement IA avec du co-codage IA gratuit, un environnement prêt à l'emploi et les meilleurs prix GPU.