7ヶ月前

テキストから画像生成

マルチモーダル

マルチモーダル

コンピュータビジョン

Tao Xu∗1, Pengchuan Zhang2, Qiuyuan Huang2, Han Zhang3, Zhe Gan4, Xiaolei Huang1, Xiaodong He2

概要

本論文では、注意駆動の多段階精製を可能とする細部生成のテキストから画像への生成に向けたアテンショナルジェネレーティブアドバーザリアルネットワーク（AttnGAN）を提案します。新しいアテンショナルジェネレーティブネットワークにより、AttnGANは自然言語記述中の関連する単語に注目することで、画像の異なる部分領域で細部詳細を合成することが可能です。さらに、深層アテンショナルマルチモーダル類似性モデルを提案し、ジェネレーターの学習に用いる細部の画像-テキストマッチング損失を計算します。提案されたAttnGANは従来の最先端技術を大幅に上回り、CUBデータセットでは最高報告値のインセプションスコアを14.14%向上させ、より困難なCOCOデータセットでは170.25%向上させました。また、AttnGANの注意層を可視化した詳細な分析も行われています。これは初めて、層状の注意駆動型GANが単語レベルでの条件を選択して画像の異なる部分を生成できることが示されました。

ソースPDF コードを表示

AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助

すぐに使える GPU

最適な料金体系

開始する料金を見る

HyperAI Newsletters

最新情報を購読する

北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします

メール配信サービスは MailChimp によって提供されています

7ヶ月前

テキストから画像生成

マルチモーダル

マルチモーダル

コンピュータビジョン

Tao Xu∗1, Pengchuan Zhang2, Qiuyuan Huang2, Han Zhang3, Zhe Gan4, Xiaolei Huang1, Xiaodong He2

概要

本論文では、注意駆動の多段階精製を可能とする細部生成のテキストから画像への生成に向けたアテンショナルジェネレーティブアドバーザリアルネットワーク（AttnGAN）を提案します。新しいアテンショナルジェネレーティブネットワークにより、AttnGANは自然言語記述中の関連する単語に注目することで、画像の異なる部分領域で細部詳細を合成することが可能です。さらに、深層アテンショナルマルチモーダル類似性モデルを提案し、ジェネレーターの学習に用いる細部の画像-テキストマッチング損失を計算します。提案されたAttnGANは従来の最先端技術を大幅に上回り、CUBデータセットでは最高報告値のインセプションスコアを14.14%向上させ、より困難なCOCOデータセットでは170.25%向上させました。また、AttnGANの注意層を可視化した詳細な分析も行われています。これは初めて、層状の注意駆動型GANが単語レベルでの条件を選択して画像の異なる部分を生成できることが示されました。

ソースPDF コードを表示

AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助

すぐに使える GPU

最適な料金体系

開始する料金を見る

HyperAI Newsletters

最新情報を購読する

北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします

メール配信サービスは MailChimp によって提供されています