4달 전

비디오 예측을 통한 물리적 상호작용의 비지도 학습

Chelsea Finn; Ian Goodfellow; Sergey Levine
비디오 예측을 통한 물리적 상호작용의 비지도 학습
초록

세계와 상호작용을 배우는 에이전트에게 핵심적인 과제 중 하나는 자신의 행동이 환경 내 객체에 어떻게 영향을 미치는지를 예측하는 것이다. 물리적 상호작용의 역학을 학습하기 위한 기존의 많은 방법들은 라벨된 객체 정보를 필요로 한다. 그러나 다양한 장면과 객체에 대한 실제 세계 상호작용 학습을 확장하려면, 라벨 데이터를 획득하는 것이 점점 더 비실용적이 된다. 라벨 없이 물리적 객체 운동을 학습하기 위해, 우리는 이전 프레임에서 픽셀 운동의 분포를 예측함으로써 픽셀 운동을 명시적으로 모델링하는 행동 조건부 비디오 예측 모델을 개발하였다. 우리의 모델이 명시적으로 운동을 예측하기 때문에, 객체의 외관에 부분적으로 불변성을 가지며, 이는 이전에 본 적 없는 객체들에도 일반화할 수 있게 한다. 실제 세계 상호작용 에이전트를 위한 비디오 예측 연구를 위해, 우리는 밀기 동작을 포함한 59,000개의 로봇 상호작용 데이터셋과 새로운 객체가 포함된 테스트 세트를 소개한다. 이 데이터셋에서는 로봇의 미래 행동에 조건부로 비디오를 정확히 예측하는 것은 다른 행동 경로에 따른 다양한 미래를 "시각적 상상"으로 학습하는 것과 같다. 실험 결과, 제안된 방법은 기존 방법들과 비교하여 양적 및 질적으로 더 정확한 비디오 예측을 생성한다는 것을 보여주었다.