2달 전

깊이 있는 비디오 생성, 예측 및 인간 행동 시퀀스의 완성

Cai, Haoye ; Bai, Chunyan ; Tai, Yu-Wing ; Tang, Chi-Keung
깊이 있는 비디오 생성, 예측 및 인간 행동 시퀀스의 완성
초록

현재 비디오 생성에 대한 딥러닝 결과는 제한적이며, 비디오 예측에 대해서는 몇 가지 초기 결과만이 있으며, 비디오 완성에 대한 관련 유의미한 결과는 전혀 없습니다. 이는 이 세 가지 문제에 내재된 심각한 불정합성(ill-posedness) 때문입니다. 본 논문에서는 인간 행동 비디오에 초점을 맞추고, 입력 프레임이 없거나 임의의 수의 제약 조건을 가질 때 인간 행동 비디오를 생성하기 위한 일반적인 두 단계 딥 프레임워크를 제안합니다. 이 프레임워크는 다음 세 가지 문제를 통일적으로 해결합니다: 입력 프레임이 없는 경우 비디오 생성, 처음 몇 개의 프레임이 주어진 경우 비디오 예측, 처음과 마지막 프레임이 주어진 경우 비디오 완성.문제를 해결하기 위해 첫 번째 단계에서는 무작위 노이즈에서 인간 자세 시퀀스를 생성하는 딥 생성 모델을 훈련시킵니다. 두 번째 단계에서는 완전한 인간 자세 시퀀스가 주어졌을 때 인간 행동 비디오를 생성하는 스켈레톤-이미지 네트워크를 훈련시킵니다. 두 단계 전략을 도입함으로써 우리는 원래의 불정합성을 우회하면서 처음으로 품질이 높고 지속 시간이 긴 비디오 생성/예측/완성 결과를 얻었습니다.우리는 정량적 및 정성적 평가를 통해 제안된 두 단계 접근 방식이 비디오 생성, 예측 및 완성 분야에서 기존 최신 방법론보다 우수함을 보여줍니다. 우리의 비디오 결과 시연은 https://iamacewhite.github.io/supp/index.html 에서 확인할 수 있습니다.

깊이 있는 비디오 생성, 예측 및 인간 행동 시퀀스의 완성 | 최신 연구 논문 | HyperAI초신경