Command Palette

Search for a command to run...

2달 전

웹익스플로러: 장기 예측 웹 에이전트 훈련을 위한 탐색과 진화

웹익스플로러: 장기 예측 웹 에이전트 훈련을 위한 탐색과 진화

초록

대규모 언어 모델(LLM)의 패러다임은 점점 웹 탐색 기능을 기반으로 한 에이전트형 응용으로 이동하고 있다. 이러한 응용에서는 다양한 온라인 소스로부터 정보를 검색하는 능력이 핵심적인 요소로 작용한다. 그러나 기존의 오픈소스 웹 에이전트는 복잡한 과제에서 정보 탐색 능력이 제한적이거나, 구현 과정이 투명하지 않은 경우가 많다. 본 연구에서는 이러한 문제의 핵심 원인이 정보 탐색을 위한 도전적인 데이터의 부족에 있음을 밝혔다. 이를 해결하기 위해, 모델 기반 탐색과 반복적이고 장기에서 단기로의 질의 진화를 활용하는 체계적인 데이터 생성 방법인 WebExplorer를 제안한다. 이 방법은 다단계 추론과 복잡한 웹 탐색을 요구하는 도전적인 질의-응답 쌍을 생성한다. 본 연구자가 정제한 고품질 데이터셋을 활용하여, 지도 미세조정 후 강화학습을 거쳐 고성능 웹 에이전트인 WebExplorer-8B를 성공적으로 개발하였다. 본 모델은 최대 128K의 컨텍스트 길이와 최대 100회에 이르는 도구 호출을 지원하며, 장기적 문제 해결이 가능하다. 다양한 정보 탐색 벤치마크에서 WebExplorer-8B는 동급 모델 중 최고 성능을 기록했다. 특히 8B 규모의 모델임에도 불구하고, 강화학습 학습 후 평균 16회의 탐색을 효과적으로 수행할 수 있으며, BrowseComp-en/zh에서 WebSailor-72B보다 높은 정확도를 달성했고, WebWalkerQA 및 FRAMES 벤치마크에서는 100B 파라미터 이하의 모델 중 최고 성능을 보였다. 정보 탐색 외에도, 본 모델은 지식 집약형 QA 데이터만으로 학습되었음에도 불구하고 HLE 벤치마크에서 뛰어난 일반화 능력을 보였다. 이러한 결과는 본 연구의 접근 방식이 장기적 사고를 수행하는 웹 에이전트를 실현하기 위한 실용적인 길임을 시사한다.

AI로 AI 구축

아이디어에서 출시까지 — 무료 AI 공동 코딩, 즉시 사용 가능한 환경, 최적 가격 GPU로 AI 개발을 가속화하세요.

AI 공동 코딩
즉시 사용 가능한 GPU
최적 가격
시작하기

Hyper Newsletters

최신 정보 구독하기
한국 시간 매주 월요일 오전 9시 에 이번 주의 최신 업데이트를 메일로 발송합니다
이메일 서비스 제공: MailChimp
웹익스플로러: 장기 예측 웹 에이전트 훈련을 위한 탐색과 진화 | 연구 논문 | HyperAI초신경