한 달 전
비디오에서 객체 구조와 역학의 비지도 학습
Matthias Minderer; Chen Sun; Ruben Villegas; Forrester Cole; Kevin Murphy; Honglak Lee

초록
비디오에서 감독 없이 객체 구조와 역학을 추출하고 예측하는 것은 기계 학습 분야에서 주요한 과제입니다. 이 과제를 해결하기 위해, 우리는 키포인트 기반의 이미지 표현을 채택하고 키포인트의 확률적 역학 모델을 학습합니다. 미래 프레임은 키포인트와 참조 프레임으로부터 재구성됩니다. 키포인트 좌표 공간에서 역학을 모델링함으로써, 우리는 안정적인 학습을 달성하고 픽셀 공간에서 오류가 복합되는 것을 피할 수 있습니다. 우리의 방법은 픽셀 레벨 비디오 예측뿐만 아니라 객체 레벨의 운동 역학 이해가 필요한 하류 작업에서도 구조화되지 않은 표현보다 우수한 성능을 보입니다. 우리는 다양한 데이터셋에 대해 우리의 모델을 평가하였습니다: 다중 에이전트 스포츠 데이터셋, Human3.6M 데이터셋, 그리고 DeepMind Control Suite의 연속 제어 작업을 기반으로 한 데이터셋들입니다. 공간적으로 구조화된 표현은 객체 추적, 행동 인식, 보상 예측 등의 다양한 운동 관련 작업에서 구조화되지 않은 표현보다 우수한 성능을 보였습니다.