7일 전
잠재 영상 트랜스포머
Ruslan Rakhimov, Denis Volkhonskiy, Alexey Artemov, Denis Zorin, Evgeny Burnaev

초록
비디오 생성 작업은 과거 프레임들을 기반으로 미래 프레임을 예측하는 문제로 공식화할 수 있다. 최근 개발된 비디오 생성 모델들은 높은 계산 자원 요구량이라는 문제에 직면해 있다. 일부 모델은 병렬 학습을 위해 최대 512개의 텐서 처리 장치(TPU)를 필요로 한다. 본 연구에서는 잠재 공간(latent space) 내에서 동역학을 모델링함으로써 이 문제를 해결한다. 프레임을 잠재 공간으로 변환한 후, 본 모델은 자동회귀적(auto-regressive) 방식으로 다음 프레임에 대한 잠재 표현을 예측한다. 제안한 방법의 성능은 BAIR 로봇 푸시링(BAIR Robot Pushing) 및 Kinetics-600 데이터셋에서 검증되었다. 실험 결과, 모델 학습 시 요구되는 그래픽 처리 장치(GPU) 수를 기존 대비 8개로 감축하면서도, 유사한 수준의 생성 품질을 유지함을 입증하였다.