Re-Imagen:リトリーブ増強型テキストto画像生成モデル

テキストから画像生成に関する研究は、大規模な画像・テキストデータ上で訓練された拡散モデルおよび自己回帰モデルの発展により、多様かつ写実的な画像の生成において顕著な進展を遂げてきた。現在の最先端モデルは一般的な対象物の高品質な画像を生成できるものの、例えば「チョルタイ(犬)」や「ピカリオネス(食べ物)」といった珍しい対象物の画像生成にはしばしば困難を示す。この課題に対処するため、本研究では、検索された情報を利用することで、稀有または未観測の対象物に対しても高忠実度かつ忠実な画像を生成可能な生成モデル「Retrieval-Augmented Text-to-Image Generator(Re-Imagen)」を提案する。テキストプロンプトが与えられると、Re-Imagenは外部のマルチモーダル知識ベースから関連する(画像、テキスト)ペアを検索し、それらを参照として画像生成に活用する。この検索ステップにより、モデルは提示された対象物の高レベルな意味的特徴および低レベルな視覚的細部に関する知識を拡張し、対象物の視覚的外観をより正確に再現できるようになる。本モデルは、(画像、テキスト、検索結果)の三つ組みを含む独自に構築したデータセット上で訓練され、テキストプロンプトと検索結果の両方に基づいた接地(grounding)を学習させる。さらに、テキスト条件と検索条件に対する分類器フリー・ガイド付きサンプリングを適切に混合する新たなサンプリング戦略を開発し、テキストと検索情報の整合性をバランスよく保つ。Re-Imagenは、COCOおよびWikiImageの両データセットにおいてFIDスコアで顕著な向上を達成した。モデルの性能をさらに評価するため、犬、食べ物、観光地、鳥、キャラクターなど複数のオブジェクトカテゴリにわたり、頻度の高いものから稀な対象物までを対象とした画像生成を評価する新たなベンチマーク「EntityDrawBench」を導入した。EntityDrawBenchにおける人間評価の結果、Re-Imagenは特に頻度の低い対象物に対して、生成画像の忠実度を著しく向上させることを示した。