로봇 조작을 위한 자기회귀적 행동 시퀀스 학습

다양한 로봇과 작업 구성에서 우수한 성능을 발휘하는 보편적인 정책 구조를 설계하는 것은 여전히 주요 과제입니다. 본 연구에서는 이 문제를 해결하기 위해 로봇 동작을 순차 데이터로 표현하고, 자기 회귀 시퀀스 모델링을 통해 동작을 생성합니다. 기존의 자기 회귀 구조는 언어 모델링에서 단어 토큰으로 끝효자(End-effector) 웨이포인트를 순차적으로 생성하는데, 이는 저주파 제어 작업에 한정됩니다. 언어와 달리, 로봇 동작은 이질적이며 종종 관절 위치, 2D 픽셀 좌표, 끝효자 자세 등 연속 값이 포함되는데, 이러한 값들은 언어 기반 모델링에 적합하지 않습니다. 이러한 인식에 기반하여, 우리는 간단한 개선점을 제안합니다: 우리는 인과 변환기(Causal Transformers)의 단일 토큰 예측을 확장하여 단일 단계에서 다양한 수의 토큰을 예측할 수 있도록 하는 청킹 인과 변환기(Chunking Causal Transformer, CCT)를 도입합니다. 이 개선점은 다양한 제어 주파수를 가진 다양한 작업에서 견고한 성능을 제공하며, 더 적은 자기 회귀 단계로 인해 효율성이 증가하고, 서로 다른 유형의 동작을 혼합하고 각 동작 유형마다 다른 청크 크기를 사용하여 하이브리드 동작 시퀀스 설계를 가능하게 합니다. CCT를 기반으로 하여, 우리는 조작 작업을 수행하기 위해 하이브리드 동작 시퀀스를 생성하는 자기 회귀 정책(Autoregressive Policy, ARP) 구조를 제안합니다. 우리는 Push-T, ALOHA, RLBench 등을 포함한 다양한 로봇 조작 환경에서 ARP를 평가하였으며, 모든 테스트 벤치마크에서 ARP가 환경별 최신 기술(state-of-the-art)과 일치하거나 그보다 우수한 성능을 보임을 입증하였습니다. 또한 계산과 매개변수 크기에 있어서 더 효율적임을 확인하였습니다. 실제 로봇 시연 영상, 모든 소스 코드 및 ARP의 사전 학습된 모델은 http://github.com/mlzxy/arp 에서 확인할 수 있습니다.