2달 전

시간 대비 네트워크: 비디오에서의 자기 지도 학습

Pierre Sermanet; Corey Lynch; Yevgen Chebotar; Jasmine Hsu; Eric Jang; Stefan Schaal; Sergey Levine
시간 대비 네트워크: 비디오에서의 자기 지도 학습
초록

우리는 여러 시점에서 촬영된 비라벨링 영상으로부터 표현과 로봇 동작을 완전히 학습하는 자기 감독 접근법을 제안하며, 이 표현이 두 가지 로봇 모방 설정에서 어떻게 사용될 수 있는지를 연구합니다: 인간의 영상에서 물체 상호 작용을 모방하고, 인간의 자세를 모방하는 것입니다. 인간 행동의 모방은 엔드 이펙터(손이나 로봇 그립퍼)와 환경, 물체 속성, 그리고 신체 자세 간의 관계를 포착하는 시점 불변 표현이 필요합니다. 우리는 동일한 관찰에 대한 여러 동시적인 시점을 임베딩 공간에서 서로 끌어당기면서, 종종 시각적으로 유사하지만 기능적으로 다른 시간적 이웃들을 서로 밀어내는 메트릭 학습 손실을 사용하여 표현을 훈련시킵니다. 즉, 모델은 서로 다른 이미지 사이의 공통점을 인식하면서도 비슷해 보이는 이미지 사이의 차이점을 인식하도록 동시에 학습됩니다. 이러한 신호는 모델이 시점 간에는 변하지 않지만 시간 간에는 변하는 속성을 발견하도록 하며, 가림 현상, 움직임 블러, 조명 및 배경과 같은 방해 변수를 무시하게 합니다. 우리는 이 표현이 로봇이 명시적인 대응 없이 직접 인간의 자세를 모방할 수 있으며, 강화 학습 알고리즘 내에서 보상 함수로 사용될 수 있음을 입증하였습니다. 표현은 관련 작업에 대한 비라벨링 영상 집합으로부터 학습되지만, 부어주는 등의 로봇 동작은 인간의 단일 제3인칭 시연을 관찰함으로써 학습됩니다. 학습된 표현 하에서 인간 시연을 따르는 보상 함수들은 실제 세계 로봇 시스템에 실용적인 효율적인 강화 학습을 가능하게 합니다. 비디오 결과물, 오픈 소스 코드 및 데이터셋은 https://sermanet.github.io/imitate 에서 확인할 수 있습니다.

시간 대비 네트워크: 비디오에서의 자기 지도 학습 | 최신 연구 논문 | HyperAI초신경