
초록
이 논문은 실제 세계 이미지로부터의 자기지도 시각 전훈(visual pre-training)이 픽셀 기반의 운동 제어 작업 학습에 효과적임을 보여준다. 먼저 자연 이미지의 마스킹 모델링을 통해 시각 표현을 학습한다. 이후 시각 인코더를 고정하고, 강화 학습을 이용하여 위에 신경망 컨트롤러를 학습한다. 인코더에 대해 어떤 작업 특화 미세 조정도 수행하지 않으며, 동일한 시각 표현을 모든 운동 제어 작업에 통합적으로 사용한다. 현재까지 알려진 바에 따르면, 본 연구는 실세계 이미지를 대규모로 활용하여 운동 제어에 적용한 최초의 자기지도 모델이다. 픽셀 기반 학습의 진전을 가속화하기 위해, 움직임, 장면, 로봇의 다양성을 고려한 수작업 설계된 작업 벤치마크 세트를 제안한다. 레이블, 상태 추정, 전문가의 예시에 의존하지 않고도, 감독 학습 기반 인코더보다 최대 80%의 절대 성공률 향상을 달성하며, 때로는 오라클 상태 성능에까지 근접한다. 또한, 유튜브나 에고센트릭 영상(Egocentric videos)과 같은 실제 환경에서 촬영된 이미지가 ImageNet 이미지보다 다양한 조작 작업에 더 우수한 시각 표현을 제공함을 발견하였다.