한 달 전
DeepResearch Bench: 깊은 연구 에이전트를 위한 포괄적인 벤치마크
Mingxuan Du, Benfeng Xu, Chiwei Zhu, Xiaorui Wang, Zhendong Mao

초록
깊이 연구 에이전트(Deep Research Agents)는 LLM 기반 에이전트의 주요 범주입니다. 이들은 자율적으로 다단계 웹 탐색, 대상 지향적 검색 및 고차 합성을 수행하여, 방대한 양의 온라인 정보를 분석가 수준의 인용문이 풍부한 보고서로 변환합니다. 이 과정을 통해 수시간 동안 수작업으로 수행해야 하는 데스크 리서치를 몇 분 안에 압축할 수 있습니다. 그러나 이러한 에이전트의 능력을 체계적으로 평가하기 위한 포괄적인 벤치마크는 아직 존재하지 않습니다. 이를 해결하기 위해, 우리는 22개의 다양한 분야에서 도메인 전문가들이 각각 세심하게 설계한 100개의 박사 학위 수준 연구 과제로 구성된 DeepResearch Bench 벤치마크를 제시합니다.DRAs를 평가는 본질적으로 복잡하고 노동 집약적이기 때문에, 우리는 인간 판단과 강력한 일치성을 달성하는 두 가지 혁신적인 방법론을 제안합니다. 첫 번째는 생성된 연구 보고서의 품질을 평가하기 위한 적응형 기준을 사용하는 참조 기반 방법입니다. 다른 프레임워크는 DRA의 정보 검색 및 수집 능력을 효과적인 인용 횟수와 전체 인용 정확도를 평가함으로써 측정합니다. 우리는 DeepResearch Bench와 이러한 프레임워크의 핵심 구성 요소들을 오픈 소스로 제공하여 실용적인 LLM 기반 에이전트 개발을 가속화하고자 합니다. 관련 자료는 https://github.com/Ayanami0730/deep_research_bench에서 확인할 수 있습니다.