한 달 전

LLM 에이전트 강화학습을 위한 트리 탐색

Yuxiang Ji Ziyu Ma Yong Wang Guanhua Chen Xiangxiang Chu Liaoni Wu

초록

최근 강화학습(RL) 분야의 발전은 대규모 언어모델(LLM)의 에이전트 기능을 크게 향상시켰다. 장기적이고 다단계의 에이전트 작업에서, 기존의 결과 보상에만 기반한 접근 방식은 희소한 감독 문제에 자주 직면한다. 이 문제를 해결하기 위해 우리는 트리 기반 그룹 상대적 정책 최적화(Tree-GRPO)를 제안한다. 이는 트리 탐색 기반의 그룹화된 에이전트 강화학습 방법으로, 각 트리 노드는 에이전트의 전체 상호작용 단계를 나타낸다. 공통된 접두사(공통 프리픽스)를 공유함으로써 트리 탐색 샘플링은 고정된 토큰 또는 도구 호출 예산 내에서 가능한 롤아웃 수를 증가시킨다. 또한, 트리 구조의 추적 경로는 단계별 프로세스 감독 신호를 결과 보상만을 사용해도 자연스럽게 구성할 수 있음을 발견했다. 이를 바탕으로 Tree-GRPO는 트리 내부 및 트리 간 수준에서 그룹 상대적 이익을 추정한다. 이론적 분석을 통해 트리 내부 수준의 그룹 상대적 정책 최적화 목적함수가 단계 수준의 직접 선호 학습과 동치임을 입증하였다. 11개 데이터셋과 3종류의 질의응답(QA) 작업을 대상으로 한 실험 결과, 제안한 트리 기반 강화학습이 체인 기반 강화학습보다 우수함을 확인하였다.

AI로 AI 구축

아이디어에서 출시까지 — 무료 AI 공동 코딩, 즉시 사용 가능한 환경, 최적 가격 GPU로 AI 개발을 가속화하세요.

AI 공동 코딩

즉시 사용 가능한 GPU

최적 가격

시작하기

Hyper Newsletters

최신 정보 구독하기

한국 시간 매주 월요일 오전 9시 에 이번 주의 최신 업데이트를 메일로 발송합니다

이메일 서비스 제공: MailChimp

Command Palette

LLM 에이전트 강화학습을 위한 트리 탐색

Yuxiang Ji Ziyu Ma Yong Wang Guanhua Chen Xiangxiang Chu Liaoni Wu

초록

AI로 AI 구축

Hyper Newsletters