3ヶ月前

自己回帰モデルが拡散モデルを上回る：スケーラブルな画像生成のためのLlama

Peize Sun Yi Jiang Shoufa Chen Shilong Zhang Bingyue Peng Ping Luo Zehuan Yuan

要約

我々は、大規模言語モデルの独自の「次のトークン予測」パラダイムを視覚生成分野に適用した新しい画像生成モデル群「LlamaGen」を紹介する。これは、視覚信号に対する誘導的バイアスを一切持たない、従来型の自己回帰モデル（例：Llama）が適切にスケーリングされた場合、最先端の画像生成性能を達成できるかどうかという問いに対する肯定的な回答である。本研究では、画像トークナイザーの設計空間、画像生成モデルのスケーラビリティ特性、および学習データの品質について再検討を行った。その結果、以下の成果が得られた：（1）画像Netベンチマークにおいて、ダウンサンプリング比16、再構成品質0.94 rFID、コードブック使用率97％を達成する画像トークナイザー。（2）111M～3.1Bパラメータの範囲で構成されるクラス条件付き画像生成モデル群。ImageNet 256×256ベンチマークにおいて2.18 FIDを達成し、LDMやDiTといった代表的な拡散モデルを上回る性能を示した。（3）LAION-COCOおよび高芸術性画像を二段階学習により用いて構築した775Mパラメータのテキスト条件付き画像生成モデル。視覚的品質とテキスト整合性の両面で競争力ある性能を示した。（4）大規模言語モデル（LLM）のサービングフレームワークが画像生成モデルの推論速度最適化に有効であることを実証し、推論速度を326％～414％向上させた。本研究では、すべてのモデルおよびコードを公開し、視覚生成およびマルチモーダル基盤モデルのオープンソースコミュニティの発展を促進する。

コードリポジトリ

foundationvision/llamagen

公式

pytorch

GitHubで言及

0606zt/panollama

pytorch

GitHubで言及

ベンチマーク

ベンチマーク	方法論	指標
image-generation-on-imagenet-256x256	LlamaGen	FID: 2.18

AI で AI を構築

アイデアからローンチまで — 無料の AI 共同コーディング、すぐに使える環境、最適価格の GPU で AI 開発を加速。

AI 共同コーディング

すぐに使える GPU

最適価格

今すぐ始める

Hyper Newsletters

最新情報を購読する

北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします

メール配信サービスは MailChimp によって提供されています

Command Palette