12일 전

와이드서치: 에이전트 기반 광범위한 정보 탐색 벤치마킹

Ryan Wong, Jiawei Wang, Junjie Zhao, Li Chen, Yan Gao, Long Zhang, Xuan Zhou, Zuo Wang, Kai Xiang, Ge Zhang, Wenhao Huang, Yang Wang, Ke Wang
와이드서치: 에이전트 기반 광범위한 정보 탐색 벤치마킹
초록

전문적 연구에서부터 일상적인 계획 수립에 이르기까지, 많은 작업이 광범위한 정보 탐색 과정에서 지연되고 있으며, 이 과정은 인지적 복잡성보다는 반복성이 더 높다. 대규모 언어 모델(Large Language Models, LLMs)의 급속한 발전에 따라, LLM 기반의 자동화된 검색 에이전트가 이러한 반복적인 작업에서 인간을 해방시킬 수 있는 유망한 해결책을 제시하고 있다. 그러나 이러한 에이전트가 ‘광범위한 맥락’을 다루는 정보 수집 작업을 신뢰성 있고 완전하게 수행할 수 있는 능력은, 적절한 벤치마크의 부재로 인해 여전히 평가가 부족한 실정이다. 이 격차를 메우기 위해 우리는 이러한 대규모 정보 수집 작업에서 에이전트의 신뢰성을 평가할 수 있도록 설계된 새로운 벤치마크인 WideSearch를 제안한다. WideSearch는 15개 이상의 다양한 분야에서 수집된 실제 사용자 쿼리에 기반한 총 200개의 수작업으로 구성된 질문(영어 100개, 중국어 100개)을 포함하고 있으며, 각 작업은 대규모 원자 단위의 정보를 수집하고, 이를 객관적으로 하나씩 검증 가능하며, 체계적으로 정리된 출력 형태로 제시하는 것을 요구한다. 엄격한 다섯 단계의 품질 관리 프로세스를 통해 데이터셋의 난이도, 완전성, 검증 가능성에 대한 신뢰성을 보장한다. 본 연구에서는 싱글 에이전트, 멀티 에이전트 프레임워크, 엔드투엔드 상용 시스템을 포함한 10개 이상의 최첨단 에이전트 기반 검색 시스템을 벤치마킹하였다. 대부분의 시스템은 전반적인 성공률이 약 0%에 근접했으며, 가장 우수한 성능을 보인 시스템도 겨우 5%에 그쳤다. 그러나 충분한 시간과 다수의 인간 검증자가 교차 검증을 수행할 경우, 성공률은 거의 100%에 달할 수 있었다. 이러한 결과는 현재의 검색 에이전트가 대규모 정보 탐색에서 심각한 한계를 지닌다는 것을 입증하며, 향후 에이전트 기반 검색 분야의 연구 및 개발에 시급한 방향성을 제시한다. 본 연구의 데이터셋, 평가 파이프라인 및 벤치마크 결과는 공개적으로 https://widesearch-seed.github.io/ 에서 제공된다.

와이드서치: 에이전트 기반 광범위한 정보 탐색 벤치마킹 | 최신 연구 논문 | HyperAI초신경