Command Palette
Search for a command to run...
Peize Sun Yi Jiang Shoufa Chen Shilong Zhang Bingyue Peng Ping Luo Zehuan Yuan

要約
我々は、大規模言語モデルの独自の「次のトークン予測」パラダイムを視覚生成分野に適用した新しい画像生成モデル群「LlamaGen」を紹介する。これは、視覚信号に対する誘導的バイアスを一切持たない、従来型の自己回帰モデル(例:Llama)が適切にスケーリングされた場合、最先端の画像生成性能を達成できるかどうかという問いに対する肯定的な回答である。本研究では、画像トークナイザーの設計空間、画像生成モデルのスケーラビリティ特性、および学習データの品質について再検討を行った。その結果、以下の成果が得られた:(1)画像Netベンチマークにおいて、ダウンサンプリング比16、再構成品質0.94 rFID、コードブック使用率97%を達成する画像トークナイザー。(2)111M~3.1Bパラメータの範囲で構成されるクラス条件付き画像生成モデル群。ImageNet 256×256ベンチマークにおいて2.18 FIDを達成し、LDMやDiTといった代表的な拡散モデルを上回る性能を示した。(3)LAION-COCOおよび高芸術性画像を二段階学習により用いて構築した775Mパラメータのテキスト条件付き画像生成モデル。視覚的品質とテキスト整合性の両面で競争力ある性能を示した。(4)大規模言語モデル(LLM)のサービングフレームワークが画像生成モデルの推論速度最適化に有効であることを実証し、推論速度を326%~414%向上させた。本研究では、すべてのモデルおよびコードを公開し、視覚生成およびマルチモーダル基盤モデルのオープンソースコミュニティの発展を促進する。
コードリポジトリ
foundationvision/llamagen
公式
pytorch
GitHubで言及
0606zt/panollama
pytorch
GitHubで言及
ベンチマーク
| ベンチマーク | 方法論 | 指標 |
|---|---|---|
| image-generation-on-imagenet-256x256 | LlamaGen | FID: 2.18 |