
초록
우리는 비라벨화된 대량의 동영상을 활용하여 비디오 인식 작업(예: 행동 분류)과 비디오 생성 작업(예: 미래 예측)을 위한 장면 역학 모델을 학습합니다. 우리는 장면의 배경과 전경을 분리하는 시공간 컨볼루션 구조를 가진 동영상용 생성적 적대 네트워크를 제안합니다. 실험 결과 이 모델은 간단한 기준모델보다 전체 프레임 속도로 최대 1초까지 작은 동영상을 더 잘 생성할 수 있음을 보여주며, 정지 이미지의 가능한 미래를 예측하는 데 그 유효성을 입증하였습니다. 또한 실험과 시각화를 통해 이 모델이 최소한의 감독 하에 행동을 인식하기 위한 유용한 특징을 내부적으로 학습함을 확인할 수 있으며, 이는 장면 역학이 표현 학습에 유망한 신호임을 시사합니다. 우리는 생성적 동영상 모델이 비디오 이해와 시뮬레이션의 많은 응용 분야에 영향을 미칠 수 있다고 믿습니다.