7ヶ月前

テキストから画像生成

コンピュータビジョン

マルチモーダル

コンピュータビジョン

Scott Reed; Zeynep Akata; Santosh Mohan; Samuel Tenka; Bernt Schiele; Honglak Lee

概要

生成対抗ネットワーク（GANs）は最近、部屋の内装、アルバムカバー、漫画、顔、鳥、花などの説得力のある実世界の画像を合成する能力を示しています。既存のモデルはクラスラベルやキャプションなどの全体的な制約に基づいて画像を合成できますが、ポーズやオブジェクトの位置に対するコントロールは提供していません。本稿では、何をどこに描くかを指示する命令を与えることで画像を合成する新しいモデルである「生成対抗何処ネットワーク」（Generative Adversarial What-Where Network, GAWWN）を提案します。Caltech-UCSD Birdsデータセットにおいて、非公式なテキスト記述とオブジェクト位置の両方に基づいた高品質な128 x 128ピクセルの画像合成を示しています。当システムは鳥のバウンディングボックスとその構成要素に対してコントロールを提供します。部分位置の条件付き分布をモデル化することで、任意の部分集合（例：嘴と尾のみ）に対する条件付けも可能となり、効率的な部分位置選択インターフェースが実現できます。また、MPIIヒューマンポーズデータセットにおける人間の行動のテキストおよび位置制御可能な画像合成というより困難な領域での初步的な結果も示しています。

AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助

すぐに使える GPU

最適な料金体系

開始する料金を見る

HyperAI Newsletters

最新情報を購読する

北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします

メール配信サービスは MailChimp によって提供されています

7ヶ月前

テキストから画像生成

コンピュータビジョン

マルチモーダル

コンピュータビジョン

Scott Reed; Zeynep Akata; Santosh Mohan; Samuel Tenka; Bernt Schiele; Honglak Lee

概要

生成対抗ネットワーク（GANs）は最近、部屋の内装、アルバムカバー、漫画、顔、鳥、花などの説得力のある実世界の画像を合成する能力を示しています。既存のモデルはクラスラベルやキャプションなどの全体的な制約に基づいて画像を合成できますが、ポーズやオブジェクトの位置に対するコントロールは提供していません。本稿では、何をどこに描くかを指示する命令を与えることで画像を合成する新しいモデルである「生成対抗何処ネットワーク」（Generative Adversarial What-Where Network, GAWWN）を提案します。Caltech-UCSD Birdsデータセットにおいて、非公式なテキスト記述とオブジェクト位置の両方に基づいた高品質な128 x 128ピクセルの画像合成を示しています。当システムは鳥のバウンディングボックスとその構成要素に対してコントロールを提供します。部分位置の条件付き分布をモデル化することで、任意の部分集合（例：嘴と尾のみ）に対する条件付けも可能となり、効率的な部分位置選択インターフェースが実現できます。また、MPIIヒューマンポーズデータセットにおける人間の行動のテキストおよび位置制御可能な画像合成というより困難な領域での初步的な結果も示しています。

AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助

すぐに使える GPU

最適な料金体系

開始する料金を見る

HyperAI Newsletters

最新情報を購読する

北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします

メール配信サービスは MailChimp によって提供されています