11일 전
결정 트랜스포머: 시퀀스 모델링을 통한 강화 학습
Lili Chen, Kevin Lu, Aravind Rajeswaran, Kimin Lee, Aditya Grover, Michael Laskin, Pieter Abbeel, Aravind Srinivas, Igor Mordatch

초록
우리는 강화학습(RL)을 시퀀스 모델링 문제로 추상화하는 프레임워크를 제안한다. 이는 트랜스포머 아키텍처의 단순성과 확장성, 그리고 GPT-x나 BERT와 같은 언어 모델링 분야의 관련 기술 발전을 활용할 수 있게 한다. 특히, 강화학습 문제를 조건부 시퀀스 모델링 문제로 변환하는 '결정 트랜스포머(Decision Transformer)' 아키텍처를 제시한다. 기존의 가치 함수 학습이나 정책 기울기 계산을 통한 강화학습 접근 방식과 달리, 결정 트랜스포머는 인과적 마스킹을 갖춘 트랜스포머를 활용하여 최적의 행동을 직접 출력한다. 원하는 보상(return)과 과거 상태, 과거 행동을 조건으로 하여 자동회귀 모델을 조건화함으로써, 본 모델은 목표 보상을 달성할 수 있는 미래 행동을 생성할 수 있다. 단순한 구조임에도 불구하고, 결정 트랜스포머는 아타리(Atari), 오픈AI 기름(Gym), 키-도어(Key-to-Door) 등의 태스크에서 최첨단의 모델 프리(off-policy) 오프라인 강화학습 기준보다 경쟁력 있거나 이를 초월하는 성능을 보였다.