9일 전
대규모 비디오 예측을 위한 탐욕적 계층형 변분 오토인코더
Bohan Wu, Suraj Nair, Roberto Martin-Martin, Li Fei-Fei, Chelsea Finn

초록
다양한 장면에 일반화할 수 있는 영상 예측 모델은 로봇과 같은 지능형 에이전트가 모델을 활용한 계획을 통해 다양한 작업을 수행할 수 있도록 해줄 것이다. 그러나 기존의 영상 예측 모델은 소규모 데이터셋에서는 희망적인 성과를 보였으나, 대규모이고 다양한 데이터셋에서 훈련할 경우 심각한 과소적합(underfitting) 문제가 발생한다. 이러한 과소적합 문제를 해결하기 위해, 우리는 먼저 대규모 영상 예측 모델을 훈련하는 데 있어 GPU 또는 TPU의 메모리 제약이 주요한 성능 저하 요인임을 관찰한다. 동시에, 깊이 있는 계층적 잠재 변수 모델은 미래 관측치의 다중 수준 확률적 특성을 포착함으로써 더 높은 품질의 예측을 가능하게 하지만, 이러한 모델의 엔드투엔드 최적화는 상당히 어렵다. 우리의 핵심 통찰은, 계층적 오토인코더를 탐욕적이고 모듈러하게 최적화하는 방식이 대규모 영상 예측에서 발생하는 메모리 제약과 최적화 과제를 동시에 해결할 수 있다는 점이다. 이를 바탕으로, 계층적 오토인코더의 각 레벨을 탐욕적으로 훈련함으로써 고정밀도 영상 예측을 학습하는 방법인 탐욕적 계층적 변분 오토인코더(Greedy Hierarchical Variational Autoencoders, GHVAEs)를 제안한다. 최신 기술 대비 GHVAEs는 네 가지 영상 데이터셋에서 예측 성능이 17~55% 향상되었으며, 실제 로봇 작업에서는 성공률이 35~40% 더 높았고, 모듈을 추가함으로써 단순히 성능을 단조롭게 개선할 수 있는 장점을 지닌다.