2달 전
포즈가 말해줍니다: 포즈 미래 생성을 통한 비디오 예측
Jacob Walker; Kenneth Marino; Abhinav Gupta; Martial Hebert

초록
현재의 비디오 예측 접근법은 생성적 적대 네트워크(GANs) 또는 변분 오토인코더(VAEs)를 사용하여 픽셀 공간에서 직접 비디오를 생성하려고 시도합니다. 그러나 이러한 접근법이 구조와 장면 동역학을 동시에 모델링하려 하기 때문에, 제약이 없는 환경에서는 종종 해석할 수 없는 결과를 생성하는 경우가 많습니다. 우리의 통찰력은 예측 문제를 더 높은 추상 수준에서 모델링하는 것입니다. 구체적으로, 인간 자세 검출기를 무료 감독원으로 활용하여 비디오 예측 문제를 두 개의 이산 단계로 나눕니다. 먼저, 장면 내 활성 객체인 인간의 고수준 구조를 명시적으로 모델링하고, VAE를 사용하여 인간의 가능한 미래 움직임을 자세 공간에서 모델링합니다. 그런 다음, 생성된 미래 자세들을 조건부 정보로 사용하여 GAN을 통해 픽셀 공간에서 비디오의 미래 프레임을 예측합니다. 자세 공간의 구조화된 표현을 중간 표현으로 사용함으로써, GAN이 비디오 픽셀을 직접 생성하는 데 어려움을 겪는 문제를 우회할 수 있습니다. 우리는 정량적 및 정성적 평가를 통해 우리의 방법이 비디오 예측 분야에서 최신 기술보다 우수한 성능을 보여주며, 이를 입증하였습니다.