11日前

スケーラブルな画像トークン化:インデックス逆伝播量子化を用いた手法

Fengyuan Shi, Zhuoyan Luo, Yixiao Ge, Yujiu Yang, Ying Shan, Limin Wang
スケーラブルな画像トークン化:インデックス逆伝播量子化を用いた手法
要約

従来のベクトル量子化(VQ)手法は、学習中に部分的な更新が行われるコードブックの不安定性に起因して、スケーラビリティに課題を抱えている。コードブックは、非活性化されたコードと視覚特徴の間の分布ギャップが拡大するにつれて、利用度が低下する影響で収束(collapse)しやすくなる。この問題を解決するため、本研究では、すべてのコードブック埋め込みと視覚エンコーダーの共同最適化を可能にする新しいVQ手法、Index Backpropagation Quantization(IBQ)を提案する。エンコーデッド特徴とコードブックの間のone-hotカテゴリカル分布にストレートスルー推定器を適用することで、すべてのコードが微分可能となり、視覚エンコーダーと一貫した潜在空間を維持できる。IBQにより、視覚トークナイザーのスケーラブルな学習が実現でき、初めて大規模なコードブック($2^{18}$)かつ高次元(256次元)で高い利用度を達成した。標準的なImageNetベンチマーク上での実験により、IBQのスケーラビリティと優位性が実証され、再構成性能および自己回帰型視覚生成への応用において競争力のある結果を達成した。コードおよびモデルは、https://github.com/TencentARC/SEED-Voken にて公開されている。

スケーラブルな画像トークン化:インデックス逆伝播量子化を用いた手法 | 最新論文 | HyperAI超神経