HyperAI초신경
Back to Headlines

알리바바 AI 팀, 비디오 생성 모델 Lumos-1 발표

8일 전

알리바바가 발표한 이 AI 논문은 'Lumos-1'이라는 통합 자동 회귀 비디오 생성 모델을 소개합니다. Lumos-1은 MM-RoPE와 AR-DF를 활용하여 효율적인 시공간 모델링을 구현하는 것이 특징입니다. 자동 회귀 비디오 생성은 비디오의 프레임을 하나씩 합성하는 연구 분야로, 공간적 배열과 시간적 동역학의 학습된 패턴을 사용합니다. 이 방식은 전통적인 비디오 제작 방법과 달리 미리 만들어진 프레임이나 수작업으로 만든 전환 효과에 의존하지 않고, 이전 토큰을 기반으로 내용을 동적으로 생성합니다. 이는 대형 언어 모델이 다음 단어를 예측하는 방식과 유사하며, 트랜스포머 기반 아키텍처의 구조적 힘을 활용하여 비디오, 이미지, 텍스트 생성을 단일 프레임워크로 통합할 가능성을 제공합니다. 이 분야에서 주요 문제는 비디오의 내재된 시공간 종속성을 정확하게 포착하고 모델링하는 것입니다. 비디오는 시간과 공간 모두에 걸쳐 풍부한 구조를 가지고 있으며, 이러한 복잡성을 모델이 미래 프레임을 예측할 수 있도록 인코딩하는 것이 여전히 도전 과제입니다. 이 종속성이 잘 모델링되지 않으면 프레임 연속성이 깨지거나 현실적이지 않은 콘텐츠가 생성될 수 있습니다. 전통적인 학습 기법인 무작위 마스킹도 종종 프레임 간 균형 잡힌 학습 신호를 제공하지 못하고, 인접 프레임의 공간 정보가 누설되면 예측이 너무 쉽게 이루어져 문제가 됩니다. 이러한 도전을 해결하기 위해 여러 방법이 제시되었지만, 대부분은 표준 대형 언어 모델 구조에서 벗어나 복잡성을 높이거나 효율성이 낮아지는 경향이 있습니다. 일부 모델은 외부 사전 학습된 텍스트 인코더를 사용해 복잡성을 증가시키고 일관성을 해치며, 다른 모델은 생성 시 큰 지연을 초래합니다. Phenaki와 EMU3 같은 자동 회귀 모델들은 끝에서 끝까지 생성을 지원하려 하지만, 성능 일관성과 높은 학습 비용 문제를 해결하지 못했습니다. 또한, 라스터 스캔 순서나 글로벌 시퀀스 어텐션 같은 기법들도 고차원 비디오 데이터에 잘 확장되지 않습니다. 알리바바 그룹의 DAMO 아카데미, Hupan 연구소, 그리고 절강대학교 연구팀은 이러한 문제를 해결하기 위해 Lumos-1을 도입했습니다. Lumos-1은 대형 언어 모델 아키텍처를 준수하면서 외부 인코더의 필요성을 제거하고 원래 LLM 설계에서 거의 변화를 주지 않습니다. 모델은 MM-RoPE(Multi-Modal Rotary Position Embeddings)를 사용해 비디오의 3차원 구조를 모델링하는 문제를 해결합니다. 또한, 프레임 내 양방향성과 프레임 간 시간 인과관계를 유지하는 토큰 종속 접근법을 채택해 비디오 데이터의 자연스러운 특성을 더 잘 반영합니다. MM-RoPE에서는 연구자들이 기존 RoPE 방법을 확장하여 공간과 시간 차원의 주파수 스펙트럼을 균형 있게 조정합니다. 전통적인 3D RoPE는 주파수 초점을 잘못 배분해 세부 정보 손실이나 위치 인코딩의 모호성을 초래하지만, MM-RoPE는 주파수 배분을 재구조화하여 시간, 높이, 너비 각각이 균형 있는 표현을 받습니다. 프레임별 학습에서 손실 불균형을 해결하기 위해 Lumos-1은 AR-DF(Autoregressive Discrete Diffusion Forcing)를 도입했습니다. 이 방식은 학습 중 시간 튜브 마스킹을 사용해 모델이 마스킹되지 않은 공간 정보에 너무 의존하지 않도록 하여 비디오 시퀀스 전체에서 균형 잡힌 학습을 보장합니다. 추론 전략도 학습과 동일하게 이루어져 프레임 품질이 저하되지 않습니다. Lumos-1은 6000만 개의 이미지와 1000만 개의 비디오를 사용해 48개의 GPU로부터 처음부터 학습되었습니다. 이는 학습 규모를 고려할 때 메모리 효율적이었습니다. 모델은 분야 내 최고 모델들과 비교할 만한 결과를 달성했으며, GenEval 벤치마크에서는 EMU3와 동등한 성능을, VBench-I2V 테스트에서는 COSMOS-Video2World와 동등한 성능을, VBench-T2V 벤치마크에서는 OpenSoraPlan과 경쟁할 수 있는 성능을 보였습니다. 이러한 비교는 Lumos-1의 가벼운 학습이 경쟁력을 해치지 않음을 입증합니다. 모델은 텍스트-비디오, 이미지-비디오, 텍스트-이미지 생성을 지원해 다양한 모달 간 강력한 일반화 능력을 보여주었습니다. 전반적으로 이 연구는 비디오 생성을 위한 시공간 모델링의 핵심 도전 과제를 식별하고 해결하며, Lumos-1이 효율성과 효과성을 통합하는 새로운 기준을 설정함을 보여줍니다. 선진 아키텍처와 혁신적인 학습 기법을 성공적으로 결합한 Lumos-1은 확장성과 고품질 비디오 생성 모델의 다음 세대를 위한 길을 열고, 앞으로의 다중 모달 연구에 새로운 방향을 제시합니다. 산업 전문가들은 Lumos-1이 비디오 생성 분야에서 획기적인 발전을 가져왔다고 평가하며, 특히 메모리 효율성과 성능 일관성이 뛰어나다고 강조하고 있습니다. 알리바바 그룹은 AI 연구 분야에서 지속적으로 혁신을 추구하고 있으며, Lumos-1은 이들의 노력이 결실을 맺은 사례 중 하나입니다.

Related Links