Command Palette
Search for a command to run...
FutureX: 미래 예측에서 LLM 에이전트를 위한 고도화된 라이브 벤치마크
FutureX: 미래 예측에서 LLM 에이전트를 위한 고도화된 라이브 벤치마크
초록
미래 예측은 LLM 에이전트에게 복잡한 과제로, 높은 수준의 분석적 사고력, 정보 수집 능력, 맥락 이해 능력, 그리고 불확실성 하에서의 의사결정 능력이 요구된다. 에이전트는 방대한 양의 동적 정보를 수집하고 해석할 뿐만 아니라, 다양한 데이터 소스를 통합하고 불확실성을 평가하며, 새로운 추세에 따라 예측을 유연하게 조정해야 하며, 이는 정치, 경제, 금융 등 분야에서 전문가들이 수행하는 방식과 동일하다. 이러한 중요성에도 불구하고, 미래 예측 능력을 평가하기 위한 대규모 벤치마크는 여전히 존재하지 않으며, 주로 실시간 업데이트 처리 및 시의적이고 정확한 답변 획득의 어려움 때문이다. 이를 해결하기 위해 우리는 미래 예측 작업을 수행하는 LLM 에이전트를 위한 동적이고 실시간 평가 벤치마크인 FutureX를 소개한다. FutureX는 미래 예측을 위한 가장 규모가 크고 다양한 실시간 벤치마크로, 매일 실시간으로 업데이트를 지원하며, 자동화된 파이프라인을 통해 질문 수집과 답변 수집 과정을 관리함으로써 데이터 오염을 제거한다. 우리는 추론 능력, 검색 기능, 외부 도구(예: 오픈소스 Deep Research Agent 및 폐쇄형 Deep Research 모델 등) 통합 기능을 갖춘 총 25개의 LLM/에이전트 모델을 평가하였으며, 이는 에이전트의 적응형 추론 능력과 동적 환경에서의 성능을 종합적으로 평가하는 데 기여한다. 또한, 미래 지향적 작업에서 에이전트의 실패 유형과 성능 저하 요인에 대한 심층 분석을 제공하며, 가짜 웹 페이지에 취약해지는 문제와 시간적 유효성 문제를 포함한다. 본 연구의 목적은 복잡한 추론과 예측 사고 능력을 갖춘 전문가 수준의 인간 분석가와 견줄 수 있는 LLM 에이전트의 발전을 촉진하기 위한, 동적이고 오염되지 않은 평가 기준을 마련하는 것이다.