Command Palette

Search for a command to run...

2달 전

CODA: 두뇌를 조율하는 인공지능: 분리된 강화학습을 통한 대뇌와 소뇌 기반의 이중 뇌 컴퓨터 사용 에이전트

Zeyi Sun Yuhang Cao Jianze Liang Qiushi Sun Ziyu Liu Zhixiong Zhang et al

CODA: 두뇌를 조율하는 인공지능: 분리된 강화학습을 통한 대뇌와 소뇌 기반의 이중 뇌 컴퓨터 사용 에이전트

초록

그래픽 사용자 인터페이스(GUI)를 위한 자율 에이전트는 과학 계산과 같은 전문화된 분야에서 장기적인 계획 수립과 정밀한 실행이 동시에 요구됨에 따라 큰 도전에 직면해 있다. 기존의 접근 방식은 균형의 문제를 겪는데, 일반화된 에이전트는 계획 능력에서는 뛰어나지만 실행 능력은 낮은 반면, 전문화된 에이전트는 반대로 실행은 우수하지만 계획 능력이 부족하다. 최근의 복합적 프레임워크는 계획기(planner)와 실행기(actor)를 결합함으로써 이러한 격차를 해소하려는 시도를 하고 있으나, 일반적으로 정적이고 학습이 불가능한 구조를 가지고 있어 경험을 기반으로 한 적응이 불가능하다는 점이 핵심적인 한계로 지적된다. 특히 과학 분야에서는 고품질 데이터의 부족이 심각한 문제이므로, 이러한 한계는 더욱 두드러진다. 이러한 문제를 해결하기 위해, 우리는 일반화된 계획기(Cerebrum)와 전문적 실행기(Cerebellum)를 통합한 새로운 학습 가능한 복합적 프레임워크인 CODA를 제안한다. 이 프레임워크는 전용의 두 단계 파이프라인을 통해 학습된다. 첫 번째 단계인 ‘전문화(Specialization)’에서는 각 과학적 응용 프로그램별로 독립적으로 전문 계획기를 학습하기 위해 분리된 GRPO(Decoupled GRPO) 방법을 적용하며, 초기에 소규모의 작업 트래잭터리(trajectory)를 기반으로 초기화한다. 두 번째 단계인 ‘일반화(Generalization)’에서는 전문적인 전문가들로부터 얻은 모든 성공적인 트래잭터리를 집계하여 통합된 데이터셋을 구축하고, 이를 바탕으로 최종 계획기의 지도 학습 미세조정(supervised fine-tuning)을 수행한다. 이를 통해 CODA는 강력한 실행 능력과 다분야로의 일반화 능력을 동시에 갖추게 된다. ScienceBoard 벤치마크에서 평가한 네 가지 도전적인 응용 사례에서 CODA는 기존 베이스라인을 크게 능가하며, 오픈소스 모델 중에서 새로운 최고 성능(SOTA, State of the Art)을 달성하였다.

AI로 AI 구축

아이디어에서 출시까지 — 무료 AI 공동 코딩, 즉시 사용 가능한 환경, 최적 가격 GPU로 AI 개발을 가속화하세요.

AI 공동 코딩
즉시 사용 가능한 GPU
최적 가격
시작하기

Hyper Newsletters

최신 정보 구독하기
한국 시간 매주 월요일 오전 9시 에 이번 주의 최신 업데이트를 메일로 발송합니다
이메일 서비스 제공: MailChimp