한 달 전
확률적 적대적 비디오 예측
Alex X. Lee; Richard Zhang; Frederik Ebert; Pieter Abbeel; Chelsea Finn; Sergey Levine

초록
미래에 발생할 수 있는 일을 예측하는 것은 세계를 지배하는 물리적 및 인과 관계의 규칙을 깊이 이해하는 것을 필요로 합니다. 이러한 능력을 갖춘 모델은 로봇 플래닝부터 표현 학습까지 다양한 매력적인 응용 분야가 있습니다. 그러나 비디오 프레임과 같은 원시 미래 관찰을 예측하는 것은 매우 어려운 문제입니다. 이 문제의 모호한 특성으로 인해 단순히 설계된 모델은 가능한 미래들을 하나의 흐린 예측으로 평균화시키는 경향이 있습니다. 최근에는 이 문제를 해결하기 위해 두 가지 다른 접근 방식이 제안되었습니다: (a) 잠재 변동 변수 모델(latent variational variable models)로, 이는 기저에 존재하는 확률성을 명시적으로 모델링하며, (b) 적대적으로 훈련된 모델(adversarially-trained models)로, 이는 자연스러운 이미지를 생성하려고 합니다. 그러나 표준 잠재 변수 모델은 현실적인 결과를 생성하는데 어려움을 겪을 수 있으며, 표준 적대적으로 훈련된 모델은 잠재 변수를 충분히 활용하지 못하고 다양성 있는 예측을 생성하지 못합니다. 우리는 이러한 서로 다른 방법들이 실제로 보완적임을 보여주며, 두 방법을 결합하면 인간 평가자에게 더 현실적으로 보이는 예측과 가능한 미래들의 범위를 더 잘 포괄하는 예측을 생성할 수 있음을 확인하였습니다. 우리의 방법은 이러한 측면에서 기존 연구와 동시 진행된 연구보다 우수한 성능을 나타냈습니다.