초록

딥 리서치 에이전트(DRAs)는 반복적인 정보 검색과 통합을 통해 분석가 수준의 보고서를 자동으로 생성하는 것을 목표로 한다. 그러나 기존 대부분의 DRAs는 질문-응답 기준 평가에서 검증되었을 뿐, 종합적인 보고서 생성에 대한 연구는 여전히 소홀히 되고 있다. 더욱 심각한 문제는 현재 보고서 통합을 평가하는 기준들이 과도한 작업 복잡성과 주관적인 평가 지표를 가지고 있다는 점이다. 이는 사용자 요구를 반영하지 못하며, 생성된 보고서의 실용적 활용 가능성을 제한한다. 이러한 격차를 보완하기 위해, 우리는 보고서 구조, 분석 깊이, 사실 기반성의 표준화를 위해 100개의 인간이 정교하게 구성한 연구 과제와 419개의 구조화된 체크리스트 항목을 포함하는 개선된 기준인 Fine-grained DEepResearch bench(FINDER) 를 제안한다. 또한 주류 DRAs가 생성한 약 1,000건의 보고서를 기반으로, 딥 리서치 에이전트를 위한 최초의 실패 분류 체계인 Deep rEsearch Failure Taxonomy(DEFT) 를 제안한다. DEFT는 추론, 정보 검색, 생성 영역에서 발생하는 14개의 세부적인 실패 유형을 포함하며, 인간과 대규모 언어 모델(LLM)의 공동 주석(annotation) 및 평가자 간 신뢰도 검증을 기반으로 한 근거 이론(grounded theory)에 기반하여 구축되었다. 실험 결과에 따르면, 현재 DRAs의 주요 문제는 과제 이해에 있는 것이 아니라, 증거 통합, 검증, 그리고 추론에 강건한 계획 수립에 있다.

소스 PDF 코드 보기