Command Palette
Search for a command to run...
Yanxu Chen Zijun Yao Yantao Liu Jin Ye Jianing Yu Lei Hou Juanzi Li

초록
최근 대규모 언어 모델(Large Language Models, LLM)은 자율 에이전트로서 강력한 능력을 보여주며, 추론, 도구 활용, 순차적 결정 부문에서 큰 잠재력을 보이고 있다. 기존의 평가 벤치마크는 소프트웨어 공학 및 과학적 발견과 같은 분야에서 LLM 에이전트를 평가해 왔지만, 경제적 가치와 직접 관련이 있으며 고위험 결정이 요구되는 금융 분야는 여전히 탐색이 부족한 상태이다. 기존의 금융 평가 벤치마크는 주로 질문 응답을 통한 정적 지식을 테스트하는 데 그치며, 주식 거래의 동적이고 반복적인 특성을 충분히 반영하지 못하고 있다. 이 격차를 보완하기 위해, 우리는 현실적인 다월간 주식 거래 환경에서 LLM 에이전트를 평가할 수 있도록 설계된 '컨테이미네이션(free) 벤치마크인 StockBench를 소개한다. 이 평가 환경에서는 에이전트가 매일 시장 신호(가격, 기초 데이터, 뉴스 등)를 수신하고, 순차적으로 매수, 매도, 보유 중 하나의 결정을 내려야 한다. 성능 평가는 누적 수익률, 최대 하락률, Sortino 비율과 같은 금융 지표를 기반으로 이루어진다. 최신의 상용 모델(GPT-5, Claude-4 등)과 오픈웨이트 모델(Qwen3, Kimi-K2, GLM-4.5 등)을 대상으로 한 평가 결과, 대부분의 LLM 에이전트가 단순한 매수 후 보유 전략(buy-and-hold baseline)을 능가하지 못하는 것으로 나타났으나, 일부 모델은 더 높은 수익률을 달성하고 리스크를 더 효과적으로 관리할 수 있는 잠재력을 보였다. 이러한 결과는 LLM 기반 금융 에이전트 개발의 도전과 기회를 동시에 드러내며, 정적 금융 지식 태스크에서 뛰어난 성과를 거두는 것이 반드시 성공적인 거래 전략으로 이어지지 않는다는 점을 시사한다. 우리는 StockBench를 오픈소스 자원으로 공개하여 재현 가능성의 확보와 본 분야 내 미래 연구의 발전을 지원하고자 한다.