Command Palette
Search for a command to run...

초록
딥 리서치 에이전트는 문헌 종합, 방법론 설계, 실증적 검증에 이르는 다단계 연구 워크플로우를 조율할 수 있는 잠재력으로 인해 점차 주목받고 있다. 그러나 이러한 발전에도 불구하고, 연구자들의 실제 관심과 지적 호기심을 진정으로 반영하는 최전방 연구 질문을 수집하는 데 어려움이 있어, 이러한 에이전트의 연구 능력을 정확히 평가하는 것은 여전히 도전 과제이다. 이 격차를 보완하기 위해, 우리는 학계 세미나를 기반으로 한 DeepResearch Arena를 제안한다. 이 벤치마크는 풍부한 전문가 논의와 상호작용을 포착하여 실제 연구 환경을 더 정확히 반영하며, 데이터 유출의 위험도 낮춘다. DeepResearch Arena를 자동으로 구축하기 위해, 세미나 녹취록에서 연구 가치 있는 영감을 추출하는 다에이전트 계층적 작업 생성(Multi-Agent Hierarchical Task Generation, MAHTG) 시스템을 제안한다. MAHTG 시스템은 연구 가치 있는 영감을 고품질의 연구 과제로 변환함으로써, 연구 과제 구성의 추적 가능성을 보장하면서도 노이즈를 효과적으로 필터링한다. MAHTG 시스템을 활용해, 문학, 역사, 과학 등 12개 학문 분야를 아우르는 200개 이상의 학술 세미나에서 1만 개 이상의 고품질 연구 과제를 수집하여 DeepResearch Arena를 구축하였다. 광범위한 평가 결과에 따르면, 현재 최고 수준의 에이전트들에 대해 DeepResearch Arena는 상당한 도전 과제를 제시하며, 다양한 모델 간에 명확한 성능 격차가 관측되었다.