LARP: 학습된 자기회귀 생성 사전을 사용한 비디오 토큰화

우리는 LARP를 소개합니다. 이는 자기 회귀(AR) 생성 모델을 위한 현재 비디오 토큰화 방법의 제한을 극복하기 위해 설계된 새로운 비디오 토큰화기입니다. 전통적인 패치별 토큰화기가 로컬 시각적 패치를 직접 이산 토큰으로 인코딩하는 것과 달리, LARP는 학습된 홀리스틱 쿼리를 사용하여 시각적 콘텐츠에서 정보를 수집하는 전체론적인 토큰화 방식을 도입합니다. 이러한 설계는 LARP가 로컬 패치 수준 정보에 국한되지 않고 더 전역적이고 의미론적인 표현을 포착할 수 있게 합니다. 또한, 임의의 수의 이산 토큰을 지원함으로써 작업의 특정 요구 사항에 따라 적응적이고 효율적인 토큰화를 가능하게 하는 유연성을 제공합니다. 하류 AR 생성 작업과 이산 토큰 공간을 일치시키기 위해, LARP는 학습 시간 동안 다음 토큰을 예측하는 경량 AR 트랜스포머를 사전 모델로 통합합니다. 학습 과정에서 사전 모델을 통합함으로써, LARP는 비디오 재구성에 최적화된 뿐만 아니라 자기 회귀 생성에 더욱 유리한 구조를 갖춘 잠재 공간을 학습합니다. 또한, 이 과정은 이산 토큰에 대한 순차적인 순서를 정의하며, 학습 중 점진적으로 최적 구성으로 밀어넣어 추론 시 더 부드럽고 정확한 AR 생성을 보장합니다. 광범위한 실험 결과는 LARP가 강력한 성능을 보임을 입증하며, UCF101 클래스 조건부 비디오 생성 벤치마크에서 최신 기술(FVD) 수준의 성능을 달성했습니다. LARP는 AR 모델이 비디오와의 호환성을 개선하고 고해상도 다중 모달 대형 언어 모델(MLLMs) 구축의 잠재력을 열어줍니다.