HyperAI초신경
17일 전

Lumos-1: 통합 모델 관점에서의 자기회귀 비디오 생성

Hangjie Yuan, Weihua Chen, Jun Cen, Hu Yu, Jingyun Liang, Shuning Chang, Zhihui Lin, Tao Feng, Pengwei Liu, Jiazheng Xing, Hao Luo, Jiasheng Tang, Fan Wang, Yi Yang
Lumos-1: 통합 모델 관점에서의 자기회귀 비디오 생성
초록

자기회귀형 대형 언어 모델(LLMs)은 다양한 언어 작업을 통합하여 자기회귀형 비디오 생성에 대한 초기 연구를 촉진하였습니다. 기존의 자기회귀형 비디오 생성기는 표준 LLM 구조와 차이가 크거나, 큰 외부 텍스트 인코더에 의존하거나, 다음 토큰 디코딩으로 인해 금지적인 지연 시간을 초래하였습니다. 본 논문에서는 최소한의 구조적 수정만으로 LLM 구조를 유지하는 자기회귀형 비디오 생성기 Lumos-1을 소개합니다. LLMs에서 시공간 상관관계를 주입하기 위해, 3D RoPE(3D Rotary Positional Embedding)를 통합하는 효율성을 확인하고 그 불균형한 주파수 스펙트럼 범위를 진단하였습니다. 이를 바탕으로, 원래의 텍스트 RoPE를 유지하면서 다중모달 시공간 데이터 모델링을 위한 포괄적인 주파수 스펙트럼과 확장된 3D 위치를 제공하는 MM-RoPE(Multimodal Rotary Positional Embedding) 방안을 제안합니다. 또한, Lumos-1은 프레임 내 양방향성과 프레임 간 시간적 인과성을 준수하는 토큰 종속 전략을 사용합니다. 이 종속 전략을 기반으로, 공간 정보 중복으로 인한 프레임별 손실 불균형 문제를 파악하고 이를 해결하기 위해 AR-DF(Autoregressive Discrete Diffusion Forcing)를 제안하였습니다. AR-DF는 훈련 시 시간적 튜브 마스킹을 도입하며 추론 시간에도 호환되는 마스킹 정책을 통해 품질 저하를 피합니다. 메모리 효율적인 훈련 기법을 사용하여 48개의 GPU로만 사전 학습된 Lumos-1은 GenEval에서 EMU3와 유사한 성능, VBench-I2V에서 COSMOS-Video2World와 유사한 성능, 그리고 VBench-T2V에서 OpenSoraPlan과 유사한 성능을 달성하였습니다. 코드와 모델은 https://github.com/alibaba-damo-academy/Lumos에서 이용 가능합니다.