Command Palette

Search for a command to run...

한 달 전

패스텀-딥리서치: SLMs를 위한 장기적 정보 검색 및 통합의 열쇠 열기

Shreyas Singh Kunal Singh Pradeep Moturi

패스텀-딥리서치: SLMs를 위한 장기적 정보 검색 및 통합의 열쇠 열기

초록

도구 통합 추론은 에이전트 기반 애플리케이션을 가능하게 하는 핵심 주제로 부상하고 있다. 이러한 기술 중에서도 복잡하고 개방형 정보 탐색 과제에서 뛰어난 성능을 보이는 DeepResearch 에이전트가 주목받고 있다. 본 연구에서는 두 개의 전문화된 모델로 구성된 에이전트 시스템인 Fathom-DeepResearch를 제안한다. 첫 번째 모델인 Fathom-Search-4B는 Qwen3-4B를 기반으로 훈련된 DeepSearch 모델로, 실시간 웹 검색과 타겟 웹페이지 쿼리 기반의 증거 중심 조사에 최적화되어 있다. 이 모델의 훈련은 세 가지 기술적 진보를 통합하여 이루어졌다. (i) 다중 에이전트 자가 대결을 통해 생성된 5,000개 샘플로 구성된 DUETQA 데이터셋은 엄격한 웹 검색 의존성과 다양한 출처 기반을 강제한다. (ii) GRPO의 무과부하 확장인 RAPO는 커리큘럼 프리닝, 보상 인지적 어드밴티지 스케일링, 프롬프트별 재생 버퍼를 통해 검증 가능한 보상 기반의 다턴 검증 강화 학습을 안정화한다. (iii) 인지적 행동과 경제적 한계 효용을 기반으로 각 도구 호출을 분류하는 조정 가능한 단계 수준 보상은 검색 경로의 폭, 깊이, 예측 범위에 대한 명시적 제어를 가능하게 한다. 이러한 개선들을 통해 필요 시 20회 이상의 도구 호출을 신뢰할 수 있게 연장할 수 있다. 두 번째 모델인 Fathom-Synthesizer-4B는 Qwen3-4B를 기반으로 훈련되어, 다턴 DeepSearch 추적 기록을 구조화되고 인용이 풍부한 DeepResearch 보고서로 변환하여 포괄적인 통합을 수행한다. SimpleQA, FRAMES, WebWalker, Seal0, MuSiQue 등의 DeepSearch 벤치마크와 DeepResearch-Bench에서 평가한 결과, Fathom-DeepResearch는 오픈-웨이트(open-weights) 카테고리에서 최고 수준의 성능을 달성하며, HLE, AIME-25, GPQA-Diamond, MedQA와 같은 다양한 추론 과제에 대해서도 뛰어난 일반화 능력을 보였다.

AI로 AI 구축

아이디어에서 출시까지 — 무료 AI 공동 코딩, 즉시 사용 가능한 환경, 최적 가격 GPU로 AI 개발을 가속화하세요.

AI 공동 코딩
즉시 사용 가능한 GPU
최적 가격
시작하기

Hyper Newsletters

최신 정보 구독하기
한국 시간 매주 월요일 오전 9시 에 이번 주의 최신 업데이트를 메일로 발송합니다
이메일 서비스 제공: MailChimp
패스텀-딥리서치: SLMs를 위한 장기적 정보 검색 및 통합의 열쇠 열기 | 연구 논문 | HyperAI초신경