
초록
본 논문에서는 비라벨 동영상의 의미 표현을 학습하고 동영상을 생성할 수 있는 생성 모델인 시간적 생성 적대 네트워크(Temporal Generative Adversarial Nets, TGAN)를 제안합니다. 기존의 생성 적대 네트워크(Generative Adversarial Nets, GAN) 기반 방법들이 3D 디컨볼루션 계층으로 구성된 단일 생성기로 동영상을 생성하는 것과 달리, 본 모델은 두 가지 유형의 생성기를 활용합니다: 시간적 생성기와 이미지 생성기입니다. 시간적 생성기는 단일 잠재 변수를 입력으로 받아 각각 동영상의 한 프레임에 해당하는 여러 잠재 변수들을 출력합니다. 이미지 생성기는 이러한 잠재 변수들의 집합을 동영상으로 변환합니다. 이러한 고급 네트워크에서 GAN 훈련의 불안정성을 해결하기 위해 최근 제안된 모델인 Wasserstein GAN을 채택하고, 이를 안정적으로 엔드투엔드 방식으로 훈련시키는 새로운 방법을 제안합니다. 실험 결과는 본 방법론의 효과성을 입증합니다.