2달 전

평활한 비디오 구성 향하여

Qihang Zhang; Ceyuan Yang; Yujun Shen; Yinghao Xu; Bolei Zhou
평활한 비디오 구성 향하여
초록

비디오 생성은 시간에 따라 동적인 콘텐츠를 가진 일관되고 지속적인 프레임을 합성하는 것을 필요로 합니다. 본 연구는 생성적 적대 네트워크(GANs)를 사용하여 임의의 길이, 몇 개의 프레임에서 무한한 길이까지의 비디오를 구성하기 위한 시간적 관계 모델링을 조사합니다. 첫째, 인접한 프레임을 합성하기 위해 단일 이미지 생성을 위한 에일리어스 자유(aliase-free) 연산과 충분히 사전 학습된 지식이 함께 사용될 때 프레임별 품질을 저하시키지 않으면서 부드러운 프레임 전환을 가져올 수 있음을 보여줍니다. 둘째, 비디오 이해를 위해 설계된 시간 이동 모듈(TSM)을 판별자에 통합함으로써 생성자가 더욱 일관된 동학을 합성하도록 발전시키는데 성공했습니다. 셋째, 시간적 부드러움을 보장하여 무한 길이의 비디오 생성을 달성하기 위한 새로운 B-스플라인 기반 운동 표현(B-Spline based motion representation)을 개발하였습니다. 이 방법은 훈련에 사용된 프레임 수를 초월할 수 있습니다. 또한 장시간 비디오 생성 시 반복되는 콘텐츠를 완화하기 위해 저 순위 시간 변조(low-rank temporal modulation)도 제안되었습니다. 우리는 다양한 데이터셋에서 우리의 접근법을 평가하고 비디오 생성 베이스라인에 대한 실질적인 개선점을 보여주었습니다. 코드와 모델은 https://genforce.github.io/StyleSV에서 공개될 예정입니다.

평활한 비디오 구성 향하여 | 최신 연구 논문 | HyperAI초신경