1ヶ月前

生成する前に理解する：自己指導型学習を用いた自己回帰型画像生成

Xiaoyu Yue Zidong Wang Yuqing Wang Wenlong Zhang Xihui Liu Wanli Ouyang Lei Bai Luping Zhou

要約

最近の研究では、画像生成における高品質な視覚表現の重要性が示されるとともに、生成モデルが画像理解において抱える限界が指摘されている。自然言語処理を目的として当初設計された自己回帰モデルも、同様の課題に直面している。本研究では、次トークン予測パラダイムを視覚領域に適用する際のメカニズムについて、初めて体系的な検討を行う。我々は、高レベルな視覚意味の学習を妨げる3つの主要な性質を同定した。すなわち、局所的かつ条件付き依存性、ステップ間の意味的一貫性の欠如、空間不変性の不足である。これらの課題は、学習過程において自己教師学習的な目的関数を導入することで効果的に解消できることを示した。これにより、自己指導型自己回帰モデル学習（Self-guided Training for AutoRegressive models, ST-AR）という新たな学習フレームワークを提案する。事前学習済みの表現モデルに依存せずに、ST-ARは自己回帰モデルの画像理解能力を著しく向上させ、生成品質も改善する。具体的には、LlamaGen-Lでは約42%、LlamaGen-XLでは約49%のFID（Fréchet Inception Distance）の向上を達成しつつ、サンプリング戦略は同一のまま維持している。

AI で AI を構築

アイデアからローンチまで — 無料の AI 共同コーディング、すぐに使える環境、最適価格の GPU で AI 開発を加速。

AI 共同コーディング

すぐに使える GPU

最適価格

今すぐ始める

Hyper Newsletters

最新情報を購読する

北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします

メール配信サービスは MailChimp によって提供されています

Command Palette

生成する前に理解する：自己指導型学習を用いた自己回帰型画像生成

Xiaoyu Yue Zidong Wang Yuqing Wang Wenlong Zhang Xihui Liu Wanli Ouyang Lei Bai Luping Zhou

要約

AI で AI を構築

Hyper Newsletters