Command Palette
Search for a command to run...
Shengqu Cai Ceyuan Yang Lvmin Zhang Yuwei Guo Junfei Xiao et al

초록
장시간 영상 생성은 본질적으로 장기적 맥락 기억 문제이다. 모델은 긴 시간에 걸쳐 중요한 사건들을 유지하고 재현해야 하며, 이 과정에서 정보가 붕괴되거나 흐려지지 않아야 한다. 그러나 장시간 맥락 영상을 생성하기 위해 확산 변환기( diffusion transformers)를 확장하는 데는 자기주의(self-attention)의 제곱형 비용이 본질적인 제약이 된다. 이로 인해 장시간 시퀀스에 대한 메모리와 계산이 비처리 가능해지고 최적화가 어려워진다. 본 연구에서는 장시간 영상 생성을 내부 정보 검색 문제로 재정의하고, 효과적인 장기 기억 검색 엔진으로서 간단하면서 학습 가능한 희소 주의(attention) 라우팅 모듈인 ‘맥락의 혼합(Mixture of Contexts, MoC)’을 제안한다. MoC에서는 각 쿼리(query)가 동적으로 몇 가지 정보가 풍부한 청크(chunk)와 필수 앵커(캡션, 로컬 창)를 선택하여 주의를 기울이며, 인과적 라우팅(causal routing)을 통해 순환 폐쇄를 방지한다. 데이터 규모를 확장하면서 점차적으로 라우팅을 희소화함으로써 모델은 중요한 과거 정보에 컴퓨팅 자원을 할당하게 되어, 수분에 걸친 콘텐츠에서도 개체, 행동, 장면의 일관성을 유지할 수 있다. 효율성은 검색 과정의 산물로 나타나며(근사 선형 확장), 실용적인 학습과 합성 가능성을 보장하며, 분단의 규모에서 기억력과 일관성의 본질적 특성이 부상하게 된다.