Command Palette
Search for a command to run...
再構成と生成における画像の価値は32トークンに相当する
再構成と生成における画像の価値は32トークンに相当する
Qihang Yu Mark Weber Xueqing Deng Xiaohui Shen Daniel Cremers Liang-Chieh Chen
概要
近年の生成モデルの進展により、高解像度画像の効率的合成において、画像のトークン化が果たす重要な役割が浮き彫りになっている。トークン化は、画像を潜在表現に変換する手法であり、ピクセルを直接処理する場合に比べて計算負荷を低減し、生成プロセスの効果性と効率性を向上させる。従来の手法(例:VQGAN)は、固定されたダウンサンプリング係数を持つ2次元の潜在グリッドを用いることが一般的である。しかし、こうした2次元のトークン化は、画像に内在する冗長性(隣接領域の類似性)を効果的に扱うことが困難である。この課題を克服するため、本研究では、画像を1次元潜在シーケンスにトークン化する新しいアプローチである「Transformerベースの1次元トークナイザー(TiTok)」を提案する。TiTokはよりコンパクトな潜在表現を提供し、従来手法に比べて著しく効率的かつ効果的な表現を実現する。例えば、256×256×3の画像を単に32個の離散トークンに圧縮できるが、従来手法では256または1024個のトークンが必要となる。このように極めてコンパクトな表現にもかかわらず、TiTokは最先端の手法と同等の性能を達成している。具体的には、同一の生成器フレームワークを用いた場合、TiTokはImageNet 256×256ベンチマークにおいて1.97 gFIDを達成し、MaskGITベースラインを4.21点も上回った。特に高解像度画像では、TiTokの利点がさらに顕著になる。ImageNet 512×512ベンチマークにおいて、TiTokは最先端の拡散モデルDiT-XL/2(gFID 3.04)を上回る(gFID 2.74)だけでなく、画像トークン数を64倍削減し、生成プロセスを410倍高速化した。本研究で最も優れた性能を示す変種は、DiT-XL/2(gFID 3.04)を大きく上回る(gFID 2.13)一方で、高品質なサンプルを74倍高速に生成することが可能である。