17日前

ランダム化自己回帰型視覚生成

Qihang Yu, Ju He, Xueqing Deng, Xiaohui Shen, Liang-Chieh Chen
ランダム化自己回帰型視覚生成
要約

本稿では、視覚生成のためのランダム化自己回帰モデル(Randomized AutoRegressive modeling, RAR)を提案する。このRARは、言語モデルフレームワークと完全に互換性を持つ一方で、画像生成タスクにおいて新たな最先端の性能を達成している。提案するRARは極めてシンプルである。標準的な自己回帰学習プロセス(次トークン予測を目的とする)において、通常ラスタ順に並べられた入力シーケンスが、確率 $ r $ でランダムに並べ替えられ、異なる因子分解順序に変換される。ここで $ r $ は学習開始時に1から始め、学習の進行に伴い線形に0へと減少する(アニーリング戦略)。この戦略により、モデルはすべての因子分解順序における期待尤度を最大化する能力を学習でき、結果として双方向的な文脈を効果的にモデル化する能力が向上する。重要な点として、RARは自己回帰モデルフレームワークの整合性を保持しており、言語モデルとの完全な互換性を確保しつつ、画像生成性能を大幅に向上させている。ImageNet-256ベンチマークにおいて、RARはFIDスコア1.48を達成し、従来の最先端自己回帰型画像生成モデルを上回るだけでなく、主要な拡散モデルおよびマスク付きTransformerベースの手法をも凌駕している。コードおよびモデルは、https://github.com/bytedance/1d-tokenizer にて公開される予定である。