
초록
Transformers는 대규모 데이터셋에 따라 확장 가능한 능력을 통해 시각 및 자연어 처리 분야에서 혁명을 일으켰다. 그러나 로봇 조작 분야에서는 데이터가 제한적이며 비용이 매우 높다. 그럼에도 불구하고, 적절한 문제 정의 하에 조작 작업은 여전히 Transformers의 이점을 누릴 수 있을까? 이를 검토하기 위해 우리는 다중 작업용 6-DoF 조작을 위한 언어 조건부 행동 복제 에이전트인 PerAct를 제안한다. PerAct는 Perceiver Transformer를 사용하여 언어 목표와 RGB-D 복셀 관측치를 인코딩하고, "다음에 가장 좋은 복셀 동작을 탐지하는 방식"으로 이산화된 동작을 출력한다. 2D 이미지 기반 프레임워크와 달리, 복셀화된 3D 관측 및 동작 공간은 6-DoF 동작을 효율적으로 학습할 수 있도록 강력한 구조적 사전 지식을 제공한다. 이러한 문제 정의를 바탕으로, 우리는 각 작업당 몇 개의 예시만을 사용하여 총 18개의 RLBench 작업(249개 변형)과 7개의 실제 세계 작업(18개 변형)을 위한 단일 다중 작업 Transformer를 학습하였다. 실험 결과, PerAct는 다양한 테이블탑 작업에서 비구조화된 이미지-동작 에이전트 및 3D ConvNet 기반 기준 모델보다 뚜렷이 우수한 성능을 보였다.