7일 전

롱비: 다중모달 유도형 제어 가능한 초장거리 비디오 생성

Jianxiong Gao, Zhaoxi Chen, Xian Liu, Jianfeng Feng, Chenyang Si, Yanwei Fu, Yu Qiao, Ziwei Liu
롱비: 다중모달 유도형 제어 가능한 초장거리 비디오 생성
초록

제어 가능한 초장거리 비디오 생성은 기초적이지만 도전적인 과제이다. 기존의 방법들은 짧은 클립 생성에는 효과적이지만, 시계열 일관성 부족 및 시각적 품질 저하 등의 문제로 인해 확장성이 떨어진다. 본 논문에서는 이러한 문제를 처음으로 분석하고, 세 가지 핵심 요인을 규명한다: 별도의 노이즈 초기화, 독립적인 제어 신호 정규화, 단일 모달 가이던스의 한계이다. 이러한 문제를 해결하기 위해, 우리는 제어 가능한 초장거리 비디오 생성을 위한 엔드투엔드 자기회귀 프레임워크인 LongVie를 제안한다. LongVie는 시계열 일관성을 보장하기 위해 두 가지 핵심 설계를 도입한다. 첫째, 클립 간 일관된 생성을 유지하는 통합적 노이즈 초기화 전략이며, 둘째, 전체 비디오에 걸쳐 제어 공간 내에서 일관성을 강제하는 글로벌 제어 신호 정규화이다. 시각적 품질 저하를 완화하기 위해, LongVie는 밀도 높은 제어 신호(예: 깊이 맵)와 희소한 제어 신호(예: 관절점)를 통합하는 다중 모달 제어 프레임워크를 활용하며, 시각 품질을 유지하기 위해 시간에 따라 모달 간 기여도를 적응적으로 조절하는 저하 인지 학습 전략을 추가로 도입한다(3). 또한, 다양한 실제 환경과 합성 환경을 아우르는 100개의 고해상도 비디오(각각 1분 이상)로 구성된 종합적 벤치마크인 LongVGenBench를 제안한다. 광범위한 실험 결과를 통해 LongVie가 장거리 제어성, 일관성 및 품질 측면에서 최신 기술 수준(SOTA)의 성능을 달성함을 확인하였다.

롱비: 다중모달 유도형 제어 가능한 초장거리 비디오 생성 | 최신 연구 논문 | HyperAI초신경