13일 전

텍스트에서 비디오 생성을 위한 계층적 시공간 분해

Zhiwu Qing, Shiwei Zhang, Jiayu Wang, Xiang Wang, Yujie Wei, Yingya Zhang, Changxin Gao, Nong Sang
텍스트에서 비디오 생성을 위한 계층적 시공간 분해
초록

확산 모델이 사실적인 이미지를 생성하는 데 강력한 능력을 보여주고 있음에도 불구하고, 현실적이고 다양한 영상을 생성하는 기술은 여전히 초기 단계에 머물러 있다. 이와 같은 문제의 핵심 원인 중 하나는 기존의 방법들이 공간적 콘텐츠와 시간적 동역학을 서로 얽히게 하여 텍스트 기반 영상 생성(Text-to-Video, T2V)의 복잡도가 크게 증가하기 때문이다. 본 연구에서는 공간적 요소와 시간적 요소를 구조 수준과 콘텐츠 수준의 두 가지 관점에서 분리함으로써 성능을 향상시키는 HiGen이라는 확산 모델 기반 방법을 제안한다. 구조 수준에서는 통합된 디노이징 기법을 활용하여 T2V 작업을 두 단계, 즉 공간적 추론과 시간적 추론으로 분해한다. 구체적으로, 공간적 추론 단계에서 텍스트를 기반으로 공간적으로 일관성 있는 사전 지식(prior)을 생성하고, 이후 시간적 추론 단계에서 이러한 사전 지식을 바탕으로 시간적으로 일관성 있는 움직임을 생성한다. 콘텐츠 수준에서는 입력 영상의 콘텐츠로부터 움직임 변화와 외관 변화를 각각 표현할 수 있는 두 가지 미묘한 신호를 추출한다. 이 두 가지 신호는 모델의 학습을 안내하여 콘텐츠의 유연한 변형과 시간적 안정성 향상을 가능하게 한다. 이러한 분리된 패러다임을 통해 HiGen은 이 작업의 복잡도를 효과적으로 낮추고 의미 정확성과 움직임 안정성이 높은 현실적인 영상을 생성할 수 있다. 광범위한 실험을 통해 HiGen이 최신 T2V 기법들에 비해 우수한 성능을 보임을 입증하였다.

텍스트에서 비디오 생성을 위한 계층적 시공간 분해 | 최신 연구 논문 | HyperAI초신경