Lumos-1: 통합 모델 관점에서의 자기회귀 비디오 생성

자기회귀형 대형 언어 모델(LLMs)은 다양한 언어 작업을 통합하여 자기회귀형 비디오 생성에 대한 초기 연구를 촉진하였습니다. 기존의 자기회귀형 비디오 생성기는 표준 LLM 구조와 차이가 크거나, 큰 외부 텍스트 인코더에 의존하거나, 다음 토큰 디코딩으로 인해 금지적인 지연 시간을 초래하였습니다. 본 논문에서는 최소한의 구조적 수정만으로 LLM 구조를 유지하는 자기회귀형 비디오 생성기 Lumos-1을 소개합니다. LLMs에서 시공간 상관관계를 주입하기 위해, 3D RoPE(3D Rotary Positional Embedding)를 통합하는 효율성을 확인하고 그 불균형한 주파수 스펙트럼 범위를 진단하였습니다. 이를 바탕으로, 원래의 텍스트 RoPE를 유지하면서 다중모달 시공간 데이터 모델링을 위한 포괄적인 주파수 스펙트럼과 확장된 3D 위치를 제공하는 MM-RoPE(Multimodal Rotary Positional Embedding) 방안을 제안합니다. 또한, Lumos-1은 프레임 내 양방향성과 프레임 간 시간적 인과성을 준수하는 토큰 종속 전략을 사용합니다. 이 종속 전략을 기반으로, 공간 정보 중복으로 인한 프레임별 손실 불균형 문제를 파악하고 이를 해결하기 위해 AR-DF(Autoregressive Discrete Diffusion Forcing)를 제안하였습니다. AR-DF는 훈련 시 시간적 튜브 마스킹을 도입하며 추론 시간에도 호환되는 마스킹 정책을 통해 품질 저하를 피합니다. 메모리 효율적인 훈련 기법을 사용하여 48개의 GPU로만 사전 학습된 Lumos-1은 GenEval에서 EMU3와 유사한 성능, VBench-I2V에서 COSMOS-Video2World와 유사한 성능, 그리고 VBench-T2V에서 OpenSoraPlan과 유사한 성능을 달성하였습니다. 코드와 모델은 https://github.com/alibaba-damo-academy/Lumos에서 이용 가능합니다.