재구성과 생성을 위한 이미지 하나는 32개의 토큰만큼의 가치가 있다

최근 생성 모델의 발전은 고해상도 이미지 효율적 합성에서 이미지 토큰화의 핵심적인 역할을 부각시켰다. 토큰화는 이미지를 잠재 표현으로 변환함으로써 픽셀을 직접 처리하는 것에 비해 계산 부담을 줄이고, 생성 과정의 효과성과 효율성을 향상시킨다. 기존의 방법들, 예를 들어 VQGAN은 고정된 다운샘플링 요소를 갖는 2차원 잠재 그리드를 일반적으로 사용한다. 그러나 이러한 2차원 토큰화는 이미지 내에 존재하는 본질적인 중복성(이웃 영역이 자주 유사한 특성을 보임)을 효과적으로 관리하는 데 어려움을 겪는다. 이 문제를 해결하기 위해 우리는 이미지를 1차원 잠재 시퀀스로 토큰화하는 혁신적인 접근 방식인 Transformer 기반 1차원 토큰라이저(TiTok)를 제안한다. TiTok는 보다 컴팩트한 잠재 표현을 제공하여 기존 기술보다 훨씬 더 효율적이고 효과적인 표현을 가능하게 한다. 예를 들어, 256 × 256 × 3 크기의 이미지는 기존 방법에서 얻는 256 또는 1024개의 토큰 대비 단지 32개의 이산 토큰으로 축소될 수 있으며, 이는 극적인 감소를 의미한다. 비록 매우 컴팩트한 구조를 갖지만, TiTok는 최첨단 기법과 경쟁 가능한 성능을 달성한다. 구체적으로, 동일한 생성기 프레임워크를 사용할 때 TiTok는 ImageNet 256×256 벤치마크에서 1.97 gFID를 기록하며, MaskGIT 기준보다 4.21점 우수한 성능을 보였다. 더 높은 해상도에서 TiTok의 장점은 더욱 두드러진다. ImageNet 512×512 벤치마크에서 TiTok는 최첨단 확산 모델인 DiT-XL/2(gFID 2.74 vs. 3.04)를 능가할 뿐 아니라, 이미지 토큰 수를 64배 줄여 410배 빠른 생성 속도를 달성한다. 우리의 최고 성능 버전은 DiT-XL/2(gFID 2.13 vs. 3.04)를 크게 상회하면서도 고품질 샘플을 74배 빠르게 생성할 수 있다.