再構成および生成において、画像1枚は32トークンに相当する

近年の生成モデルにおける進展は、高解像度画像の効率的な合成において、画像トークン化(image tokenization)の重要性を浮き彫りにしている。トークン化は画像を潜在表現(latent representation)に変換するプロセスであり、ピクセルを直接処理するのと比較して計算負荷を低減するとともに、生成プロセスの効果性と効率性を向上させる。従来の手法(例:VQGAN)は、固定されたダウンサンプリング因子を持つ2次元(2D)潜在グリッドを用いることが一般的である。しかし、このような2Dトークン化は、画像に内在する冗長性(adjacent regionsが頻繁に類似性を示す特性)を効果的に扱うことに課題を抱えている。この問題を克服するため、本研究では、画像を1次元(1D)潜在シーケンスにトークン化する新しいアプローチ、Transformerベースの1次元トークナイザー(TiTok)を提案する。TiTokはよりコンパクトな潜在表現を実現し、従来手法と比較して著しく効率的かつ効果的な表現を可能にする。たとえば、256 × 256 × 3の画像をわずか32個の離散トークンに圧縮できる一方、従来手法では256または1024個のトークンが必要となる。このコンパクトな構造にもかかわらず、TiTokは最先端のアプローチと同等の性能を達成している。具体的には、同じ生成フレームワークを用いた場合、TiTokはImageNet 256 × 256ベンチマークにおいて1.97 gFIDを達成し、MaskGITベースライン(gFID 6.18)を大きく上回った。さらに高解像度領域では、TiTokの利点が顕著に現れる。ImageNet 512 × 512ベンチマークにおいて、TiTokは最先端の拡散モデルDiT-XL/2(gFID 3.04)を上回る結果(gFID 2.74)を示し、画像トークン数を64倍削減することで、生成プロセスを410倍高速化した。本研究で最も優れたバリアントは、DiT-XL/2(gFID 3.04)を大きく上回るgFID 2.13を達成しつつ、高品質なサンプルを74倍の速度で生成することが可能である。