8일 전

픽셀을 춤추게 하라: 고다이나믹 비디오 생성

Yan Zeng, Guoqiang Wei, Jiani Zheng, Jiaxin Zou, Yang Wei, Yuchen Zhang, Hang Li

초록

움직임이 풍부한 액션과 복잡한 시각 효과를 포함한 고역동 범위 영상 생성은 인공지능 분야에서 큰 도전 과제로 남아 있다. 현재 최첨단 영상 생성 기법은 주로 텍스트 기반 영상 생성에 초점을 맞추고 있으나, 높은 품질을 유지하더라도 움직임이 극히 제한된 영상 클립을 생성하는 경향이 있다. 우리는 단순히 텍스트 지시만에 의존하는 방식이 영상 생성에 있어 부적절하고 최적화되지 않았다고 주장한다. 본 논문에서는 확산 모델 기반의 새로운 접근 방식인 PixelDance를 제안한다. 이는 영상 생성 시 첫 프레임과 마지막 프레임에 이미지 지시를 병행하여 텍스트 지시와 함께 활용함으로써, 더 정교한 움직임과 복잡한 시점을 구현할 수 있도록 설계되었다. 포괄적인 실험 결과를 통해 공개 데이터로 학습된 PixelDance가 복잡한 장면과 세밀한 움직임을 갖춘 영상 생성 능력에서 기존 기법보다 훨씬 뛰어남을 입증하였으며, 영상 생성 분야의 새로운 기준을 제시한다.