2ヶ月前
LAFITE: テキストから画像生成への言語依存性のない学習に向けて
Yufan Zhou; Ruiyi Zhang; Changyou Chen; Chunyuan Li; Chris Tensmeyer; Tong Yu; Jiuxiang Gu; Jinhui Xu; Tong Sun

要約
テキストから画像を生成するモデルの訓練における主要な課題の一つは、多数の高品質な画像とテキストのペアが必要であることです。画像サンプルはしばしば容易に入手可能ですが、それに対応するテキスト説明は慎重な人間によるキャプショニングを必要とし、特に時間とコストがかかります。本論文では、テキストデータを一切使用せずにテキストから画像を生成するモデルを訓練する最初の研究を提案します。当方法は、強力な事前学習済みCLIPモデルの多様なモーダル意味空間を活用します:画像特徴量からテキスト特徴量を生成することで、テキスト条件付けの要件がシームレスに軽減されます。広範な実験を通じて、提案手法の有効性が示されています。我々は標準的なテキストから画像への生成タスクにおいて最先端の結果を得ています。特に重要なのは、提案された言語フリー(language-free)モデルが完全な画像-テキストペアで訓練された既存の大半のモデルを上回っていることです。さらに、当手法は事前学習済みモデルの微調整にも適用でき、これによりテキストから画像への生成モデルの訓練時間とコストが大幅に削減されます。我々の事前学習済みモデルはMS-COCOデータセットでのゼロショット(zero-shot)テキストから画像への生成において競争力のある結果を得ていますが、最近提案された大規模なDALL-Eモデルに対して約1%程度しかモデルサイズや訓練データ量を持っていません。注:「language-free」および「zero-shot」などの専門用語については一般的な日本語訳を使用しつつも、原文も括弧内に記載しています。