Command Palette
Search for a command to run...
Xiaoyu Yue Zidong Wang Yuqing Wang Wenlong Zhang Xihui Liu Wanli Ouyang Lei Bai Luping Zhou

要約
最近の研究では、画像生成における高品質な視覚表現の重要性が示されるとともに、生成モデルが画像理解において抱える限界が指摘されている。自然言語処理を目的として当初設計された自己回帰モデルも、同様の課題に直面している。本研究では、次トークン予測パラダイムを視覚領域に適用する際のメカニズムについて、初めて体系的な検討を行う。我々は、高レベルな視覚意味の学習を妨げる3つの主要な性質を同定した。すなわち、局所的かつ条件付き依存性、ステップ間の意味的一貫性の欠如、空間不変性の不足である。これらの課題は、学習過程において自己教師学習的な目的関数を導入することで効果的に解消できることを示した。これにより、自己指導型自己回帰モデル学習(Self-guided Training for AutoRegressive models, ST-AR)という新たな学習フレームワークを提案する。事前学習済みの表現モデルに依存せずに、ST-ARは自己回帰モデルの画像理解能力を著しく向上させ、生成品質も改善する。具体的には、LlamaGen-Lでは約42%、LlamaGen-XLでは約49%のFID(Fréchet Inception Distance)の向上を達成しつつ、サンプリング戦略は同一のまま維持している。