오프라인 인간의 예시로부터 로봇 조작을 학습할 때 중요한 요소들

인간의 시범을 모방하는 것은 로봇에게 다양한 조작 능력을 부여하는 유망한 접근 방식이다. 최근 이mitation learning(모방 학습)과 배치(off-line) 강화 학습 분야에서 많은 진전이 있었지만, 오픈소스 인간 데이터셋의 부족과 재현 가능한 학습 방법의 부재로 인해 해당 분야의 현재 수준을 평가하는 것이 어려운 상황이다. 본 논문에서는 다양한 복잡도를 지닌 5개의 시뮬레이션 및 3개의 실제 다단계 조작 작업에서, 품질이 서로 다른 데이터셋을 활용하여 로봇 조작을 위한 6가지 오프라인 학습 알고리즘에 대해 광범위한 연구를 수행한다. 본 연구는 인간의 시범 데이터로부터 학습할 때 직면하는 가장 핵심적인 도전 과제들을 분석한다. 연구를 바탕으로 알고리즘 설계 선택에 대한 민감성, 시범의 품질에 대한 의존성, 그리고 학습과 평가 시 목표가 다를 경우 정지 기준에 따라 결과가 달라지는 변동성 등 일련의 교훈을 도출한다. 또한 인간 데이터셋을 활용한 학습의 잠재적 기회를 강조하며, 현재의 강화 학습 기법이 다룰 수 없는 도전적인 다단계 작업에서도 전문적인 정책을 학습할 수 있는 가능性和, 원시 센서 신호만 존재하는 자연스럽고 실제적인 조작 환경으로 쉽게 확장할 수 있는 능력 등을 제시한다. 본 연구에서 사용한 모든 데이터셋과 알고리즘 구현체를 오픈소스로 공개하여, 인간 시범 데이터로부터의 학습에 대한 향후 연구와 공정한 비교를 촉진하고자 한다. 코드베이스, 데이터셋, 학습된 모델 등은 다음 웹사이트에서 확인 가능하다: https://arise-initiative.github.io/robomimic-web/