Command Palette

Search for a command to run...

2달 전

WebSailor-V2: 합성 데이터와 확장 가능한 강화 학습을 통한 사내 에이전트로의 다리 놓기

WebSailor-V2: 합성 데이터와 확장 가능한 강화 학습을 통한 사내 에이전트로의 다리 놓기

초록

인간의 인지적 한계를 넘어서는 것은 대규모 언어 모델(LLM) 훈련에서 핵심적인 전선이다. DeepResearch와 같은 사적 에이전트 시스템은 기존에는 불가능했던, BrowseComp과 같은 극도로 복잡한 정보 탐색 기준에서 초인적 능력을 입증하였다. 우리는 이러한 성공이 개방형 모델에서 관찰되지 않는 정교한 사고 패턴에 달려 있다고 주장한다. 즉, 방대한 정보 환경을 탐색할 때 극도의 불확실성을 체계적으로 줄일 수 있는 능력이다. 이 통찰을 바탕으로, 이 중요한 능력을 부여하기 위한 완전한 후처리 훈련 방법론인 WebSailor을 제안한다. 본 연구의 접근법은 구조적 샘플링과 정보 왜곡을 통해 새로운 고불확실성 태스크를 생성하고, RFT 쿨스타트를 수행하며, 효율적인 에이전트 기반 강화학습(RL) 훈련 알고리즘인 중복 샘플링 정책 최적화(Duplicating Sampling Policy Optimization, DUPO)를 적용하는 것이다. 이러한 통합된 파이프라인을 통해 WebSailor은 복잡한 정보 탐색 과제에서 모든 개방형 에이전트를 크게 능가하며, 사적 에이전트의 성능에 근접하여 기능적 격차를 해소한다.

AI로 AI 구축

아이디어에서 출시까지 — 무료 AI 공동 코딩, 즉시 사용 가능한 환경, 최적 가격 GPU로 AI 개발을 가속화하세요.

AI 공동 코딩
즉시 사용 가능한 GPU
최적 가격
시작하기

Hyper Newsletters

최신 정보 구독하기
한국 시간 매주 월요일 오전 9시 에 이번 주의 최신 업데이트를 메일로 발송합니다
이메일 서비스 제공: MailChimp
WebSailor-V2: 합성 데이터와 확장 가능한 강화 학습을 통한 사내 에이전트로의 다리 놓기 | 연구 논문 | HyperAI초신경