HyperAIHyperAI

Command Palette

Search for a command to run...

GLIGEN: オープンセットの接地テキストから画像生成

Yuheng Li¹§, Haotian Liu¹§, Qingyang Wu², Fangzhou Mu¹, Jianwei Yang³, Jianfeng Gao³, Chunyuan Li³¶, Yong Jae Lee¹¶

概要

大規模なテキストから画像へのディフュージョンモデルは驚くべき進歩を遂げています。しかし、現状ではテキスト入力のみを使用しており、これが制御性に支障をきたすことがあります。本研究では、GLIGEN(Grounded-Language-to-Image Generation)と呼ばれる新しいアプローチを提案します。これは既存の事前学習済みテキストから画像へのディフュージョンモデルの機能を拡張し、グラウンド入力にも条件付けできるようにするものです。事前学習済みモデルの広範な概念知識を保つために、そのすべての重みを固定し、ゲート機構を通じてグラウンド情報が新しい学習可能な層に注入されるようにしています。当モデルはキャプションとバウンディングボックスの条件入力を用いてオープンワールドのグラウンド付きテキスト2画像生成を実現しており、グラウンド能力は新しい空間構成や概念に対して良好に一般化します。GLIGENはCOCOおよびLVISでのゼロショット性能において、既存の監督付きレイアウトから画像へのベースラインを大幅に上回っています。


AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助
すぐに使える GPU
最適な料金体系

HyperAI Newsletters

最新情報を購読する
北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします
メール配信サービスは MailChimp によって提供されています