2ヶ月前
GLIGEN: オープンセットの接地テキストから画像生成
Li, Yuheng ; Liu, Haotian ; Wu, Qingyang ; Mu, Fangzhou ; Yang, Jianwei ; Gao, Jianfeng ; Li, Chunyuan ; Lee, Yong Jae

要約
大規模なテキストから画像へのディフュージョンモデルは驚くべき進歩を遂げています。しかし、現状ではテキスト入力のみを使用しており、これが制御性に支障をきたすことがあります。本研究では、GLIGEN(Grounded-Language-to-Image Generation)と呼ばれる新しいアプローチを提案します。これは既存の事前学習済みテキストから画像へのディフュージョンモデルの機能を拡張し、グラウンド入力にも条件付けできるようにするものです。事前学習済みモデルの広範な概念知識を保つために、そのすべての重みを固定し、ゲート機構を通じてグラウンド情報が新しい学習可能な層に注入されるようにしています。当モデルはキャプションとバウンディングボックスの条件入力を用いてオープンワールドのグラウンド付きテキスト2画像生成を実現しており、グラウンド能力は新しい空間構成や概念に対して良好に一般化します。GLIGENはCOCOおよびLVISでのゼロショット性能において、既存の監督付きレイアウトから画像へのベースラインを大幅に上回っています。