Mind2Web 2: 에이전트-아즈-저지로 대리적 검색 평가하기

대리 탐색(Agentic search)은 대형 언어 모델이 웹을 자율적으로 탐색하고 정보를 종합하여 포괄적인 인용 기반 답변을 제공하는 시스템(예: Deep Research 시스템)으로, 사용자가 웹 규모의 정보와 상호작용하는 방식에 큰 변화를 가져옵니다. 효율성과 인지 부하 감소를 약속하지만, 대리 탐색의 복잡성과 개방성이 기존 평가 벤치마크 및 방법론을 초월하고 있으며, 이는 주로 짧은 탐색 시간과 정적인 답변을 가정합니다. 본 논문에서는 실시간 웹 탐색과 광범위한 정보 종합이 필요한 실제적이고 고품질의 장기적 작업 130개로 구성된 벤치마크인 Mind2Web 2를 소개합니다. 이 벤치마크는 1,000시간 이상의 인간 노동력을 통해 구축되었습니다. 시간에 따라 변동되고 복잡한 답변을 평가하기 위한 도전 과제를 해결하기 위해, 우리는 새로운 에이전트-아즈-저지(Agent-as-a-Judge) 프레임워크를 제안합니다. 우리의 방법은 트리 구조의 채점 설계를 기반으로 작업별 저지 에이전트를 구축하여 답변의 정확성과 출처 귀속을 자동으로 평가합니다. 우리는 최신 9개의 대리 탐색 시스템과 인간 성능을 포괄적으로 평가하였으며, 미래 발전을 위한 통찰력을 얻기 위해 상세한 오류 분석도 수행하였습니다. 가장 우수한 성능을 보인 시스템인 오픈 AI 딥 리서치(OpenAI Deep Research)는 이미 인간 성능의 50-70%를 달성하면서 절반의 시간을 소비하며, 큰 잠재력을 보여주고 있습니다. 총합적으로, Mind2Web 2는 차세대 대리 탐색 시스템의 개발 및 벤치마킹에 엄격한 기초를 제공합니다.