Command Palette
Search for a command to run...
Ziyi Xia Kun Luo Hongjin Qian Zheng Liu

초록
대규모 언어 모델(LLM)은 단순한 사실 질문을 넘어서, 질문을 하위 문제로 분해하고 다단계 추론을 조율하며 다양한 출처의 증거를 통합하는 능력을 요구하는 ‘딥 리서치(Deep Research)’ 작업에 점점 더 기대받고 있다. 본 연구에서는 검증 가능한 답변을 가진 딥 리서치 작업을 계층적 제약 만족 문제(Hierarchical Constraint Satisfaction Problems, HCSP)로 체계화한다. 이는 단일 제약, 다단계 추론, 또는 평면적(CSP) 구조와 근본적으로 다른 접근 방식이다. 그러나 기존의 벤치마크(예: Natural Questions, HotpotQA)는 이러한 복잡성을 충분히 반영하지 못하며, 최근 제안된 합성 데이터셋들은 종종 단순화된 추론 경로, 지식 누출, 또는 충분한 구조적 깊이의 부족을 겪는다. 이러한 격차를 해결하기 위해, 우리는 복잡한 딥 리서치 작업을 체계적으로 생성할 수 있는 확장 가능한 프레임워크인 InfoSeek을 제안한다. InfoSeek는 대규모 웹 페이지에서 계층적 ‘연구 트리(Research Tree)’를 반복적으로 구성하는 이중 에이전트 시스템을 활용한다. 이 과정에서 중간 노드는 유효한 하위 문제로 변환되며, 이러한 트리는 전체 계층을 탐색해야만 답할 수 있는 자연어 질문으로 변환된다. 또한, InfoSeek는 빠른 확장이 가능하여 5만 개 이상의 훈련 예시, 정교하게 구성된 테스트 세트, 그리고 거절 샘플링을 통해 생성된 추론 경로를 제공한다. 실험 결과에 따르면, InfoSeek로 훈련된 모델은 강력한 기준 모델들을 지속적으로 상회한다. 특히 도전적인 벤치마크인 BrowseComp-Plus에서, InfoSeek로 최적화된 3B 규모의 LLM이 훨씬 큰 32B 모델과 경량 상용 API(예: Gemini 2.5 Flash)를 능가하며, 더 강력한 API(예: Gemini 2.5 Pro)와 비슷한 성능을 달성한다. InfoSeek는 중간 추론 단계 및 검색 레이블과 같은 메타 정보를 보존함으로써, 복합 보상 설계 및 경로 수준의 탐색과 같은 고급 최적화 전략을 지원한다. 코드 및 데이터셋은 \href{https://github.com/VectorSpaceLab/InfoSeek}{이 저장소}에서 공개한다.