오미토큰라이저: 시각 생성을 위한 통합 이미지-비디오 토큰라이저

Tokenizer는 복잡한 시각적 데이터를 효율적인 잠재 공간으로 매핑하는 번역기 역할을 하며, 시각 생성 모델의 핵심에 위치한다. 기존의 Tokenizer가 이미지 또는 동영상 입력에 특화되어 있다는 점을 바탕으로, 본 논문에서는 이미지와 동영상을 공동으로 처리할 수 있는 트랜스포머 기반의 Tokenizer인 OmniTokenizer를 제안한다. OmniTokenizer는 공간-시간 분리 아키텍처를 설계하여 공간 모델링을 위한 윈도우 주목력과 시간 모델링을 위한 인과 주목력(causal attention)을 통합하였다. 이미지와 동영상 데이터 간의 보완적 특성을 효과적으로 활용하기 위해, 점진적 학습 전략을 추가로 제안한다. 이 전략은 먼저 고정 해상도에서 이미지 데이터로만 OmniTokenizer를 사전 학습하여 공간 인코딩 능력을 구축한 후, 다양한 해상도에서 이미지와 동영상 데이터를 함께 학습함으로써 시간적 동역학을 학습하도록 설계되었다. OmniTokenizer는 처음으로 통합된 프레임워크 내에서 이미지와 동영상 입력을 동시에 처리하며, 두 모달리티 간의 상호보완적 협업 가능성을 입증하였다. 광범위한 실험을 통해 OmniTokenizer는 다양한 이미지 및 동영상 데이터셋에서 최신 기준(SOTA) 수준의 재구성 성능을 달성하였으며, 예를 들어 ImageNet에서는 1.11의 재구성 FID, UCF-101에서는 42의 재구성 FVD를 기록하여 기존 SOTA 방법보다 각각 13%, 26% 향상시켰다. 또한, OmniTokenizer를 통합할 경우 언어 모델 기반 접근법과 확산 모델 모두 고도화된 시각 생성 성능을 실현함을 보여주며, 본 방법의 우수성과 유연성을 입증하였다. 코드는 https://github.com/FoundationVision/OmniTokenizer 에서 공개되어 있다.