Command Palette
Search for a command to run...
FinSearchComp: 금융 검색 및 추론의 실제적이고 전문가 수준의 평가를 향하여
FinSearchComp: 금융 검색 및 추론의 실제적이고 전문가 수준의 평가를 향하여
초록
검색은 LLM 기반 에이전트의 핵심 인프라로 부상했으며, 더 일반적인 지능으로 나아가는 데 필수적인 요소로 널리 인식되고 있다. 금융 분야는 특히 도전적인 검증 환경으로서, 분석가들은 시간 민감한 도메인 전용 데이터를 대상으로 복잡하고 다단계에 걸친 검색 작업을 정기적으로 수행하므로, 검색 능력과 지식 기반 추론 능력을 동시에 평가하기에 이상적인 분야이다. 그러나 기존의 오픈 금융 데이터셋 중 검색 기능을 갖춘 종단 간(End-to-End) 에이전트의 데이터 탐색 능력을 평가하는 사례는 존재하지 않는다. 이는 현실적이고 복잡한 과제를 구성하기 위해 깊은 금융 전문 지식이 필요하며, 시간 민감한 데이터를 평가하는 데 어려움이 있기 때문이다. 본 연구에서는 현실적이고 개방형 금융 검색 및 추론을 위한 최초의 완전히 오픈소스 에이전트 벤치마크인 FinSearchComp를 제안한다. FinSearchComp는 실제 금융 분석가의 업무 흐름을 정밀하게 재현하는 세 가지 과제로 구성된다. 즉, 시간 민감한 데이터 수집, 단순한 과거 정보 조회, 복잡한 과거 조사이다. 난이도와 신뢰성을 보장하기 위해 70명의 전문 금융 전문가를 활용해 데이터 주석을 수행하고, 철저한 다단계 품질 보증 프로세스를 도입하였다. 이 벤치마크는 글로벌 시장과 대만·홍콩·마카오 등 대중화 지역 시장을 아우르는 총 635개의 질문을 포함하며, 이를 바탕으로 21개 모델(제품)을 평가하였다. 글로벌 서브셋에서는 Grok 4 (web)가 전문가 수준의 정확도에 근접하며 최고 성능을 기록했고, 대중화 지역 서브셋에서는 DouBao (web)가 선도적인 성과를 보였다. 실험 분석 결과, 에이전트에 웹 검색 기능과 금융 전용 플러그인을 탑재할 경우 FinSearchComp에서 성능이 크게 향상되며, 모델 및 도구의 국가 출처가 성능에 상당한 영향을 미친다는 점이 확인되었다. FinSearchComp는 현실적인 분석가 업무에 부합하며 종단 간 평가를 제공함으로써, 복잡한 금융 검색 및 추론을 위한 전문적이고 높은 난이도의 테스트베드를 제공한다.