17日前

次のトークンを越えて:自己回帰的視覚生成における次のX予測

Sucheng Ren, Qihang Yu, Ju He, Xiaohui Shen, Alan Yuille, Liang-Chieh Chen
次のトークンを越えて:自己回帰的視覚生成における次のX予測
要約

自己回帰(AR)モデルは、次トークン予測の枠組みとして知られ、最先端の言語および視覚生成モデルの基盤を成している。従来、『トークン』は最小の予測単位として扱われており、言語では離散的な記号、視覚では量子化されたパッチとして定義されることが多い。しかし、2次元画像構造における最適なトークン定義は依然として未解決の問題である。さらに、ARモデルは教師強制(teacher forcing)による訓練中に誤差が蓄積する「露出バイアス(exposure bias)」という課題を抱えている。本論文では、トークンの概念を一般化したxARというフレームワークを提案する。xARは、個々のパッチトークン、隣接パッチのk×kグループ化によるセル(cell)、離れたパッチの非局所的グループ化であるサブサンプリング、粗〜細な解像度のスケール、さらには全体画像を含む、任意のエンティティXをトークンとして扱う。また、離散的トークン分類を連続的エンティティ回帰に再定式化し、各ARステップでフロー・マッチング(flow-matching)手法を活用する。このアプローチは、真値トークンではなくノイズを含むエンティティを訓練の条件として用いることで、「ノイズ付きコンテキスト学習(Noisy Context Learning)」を実現し、露出バイアスを効果的に軽減する。その結果、xARは以下の2つの主要な利点を提供する:(1)異なる文脈の粒度や空間構造を捉える柔軟な予測単位を可能にし、(2)教師強制に依存しないことで露出バイアスを緩和する。ImageNet-256生成ベンチマークにおいて、我々のベースモデルxAR-B(172Mパラメータ)は、675MパラメータのDiT-XL/SiT-XLを上回りながら、推論速度を20倍高速化している。一方、xAR-HはFID値1.24を達成し、視覚基盤モジュール(例:DINOv2)や高度なガイダンス間隔サンプリングを用いないにもかかわらず、従来の最良モデルより2.2倍高速な性能を発揮し、新たな最先端水準を確立した。