13일 전

VideoComposer: 동작 제어 가능성을 갖춘 구성적 비디오 합성

Xiang Wang, Hangjie Yuan, Shiwei Zhang, Dayou Chen, Jiuniu Wang, Yingya Zhang, Yujun Shen, Deli Zhao, Jingren Zhou
VideoComposer: 동작 제어 가능성을 갖춘 구성적 비디오 합성
초록

시각 콘텐츠 생성의 더 높은 기준으로서의 제어 가능성에 대한 탐구는 사용자 정의 이미지 합성 분야에서 놀라운 진전을 이뤄냈다. 그러나 시간적 동역학의 큰 변동성과 프레임 간 시간적 일관성의 요구 조건으로 인해, 제어 가능한 영상 합성은 여전히 도전 과제로 남아 있다. 본 연구는 구성형 생성(Compositional Generation)의 패러다임에 기반하여, 사용자가 텍스트 조건, 공간 조건뿐 아니라 특히 시간 조건을 유연하게 조합하여 영상을 생성할 수 있는 VideoComposer를 제안한다. 구체적으로 영상 데이터의 특성을 고려하여, 압축된 영상에서 추출한 운동 벡터(Motion Vector)를 명시적인 제어 신호로 도입함으로써 시간적 동역학에 대한 안내를 제공한다. 또한, 순차적 입력의 공간적 및 시간적 관계를 효과적으로 통합할 수 있는 유일한 인터페이스로 작동하는 공간-시간 조건 인코더(Spatio-Temporal Condition Encoder, STC-encoder)를 개발하였다. 이를 통해 모델은 시간 조건을 보다 효과적으로 활용할 수 있어 프레임 간 일관성이 향상된다. 광범위한 실험 결과는 VideoComposer가 텍스트 설명, 스케치 시퀀스, 참조 영상, 또는 단순한 수작업 운동과 같은 다양한 형태로 영상 내에서 공간적 및 시간적 패턴을 동시에 제어할 수 있음을 시사한다. 코드와 모델은 https://videocomposer.github.io 에 공개될 예정이다.

VideoComposer: 동작 제어 가능성을 갖춘 구성적 비디오 합성 | 최신 연구 논문 | HyperAI초신경