HyperAIHyperAI

Command Palette

Search for a command to run...

学習可能なレイアウトとスタイル再構成可能なGANを用いた制御可能な画像合成

Wei Sun Tianfu Wu

概要

最近の深層生成モデルの著しい進歩に伴い、再構成可能な入力から制御可能な画像合成を行うモデルの開発がますます興味深い課題となっています。本論文では、レイアウトから画像への生成という最近注目を集めているタスクに焦点を当て、空間的なレイアウト(つまり、画像格子内に配置されたオブジェクトのバウンディングボックス)とスタイル(つまり、潜在ベクトルによって符号化された構造的および外観的な変動)から写実的な画像を生成する能力を持つ生成モデルを学習することを目指しています。本論文はまず、このタスクに対する直感的なパラダイムである「レイアウトからマスクへ、そして画像へ」(layout-to-mask-to-image)を提案します。これは、入力レイアウト内の指定されたバウンディングボックスのオブジェクトマスクを展開し、入力レイアウトと生成された画像との間のギャップを埋めるためのものです。次に、本論文では、提案したレイアウトからマスクへ、そして画像への生成タスクにおいて両レベルでのスタイル制御を可能にするジェネレーティブ・アドバーサリアル・ネットワーク(GAN)に基づく方法を提示します。オブジェクトマスクは入力レイアウトから学習され、ジェネレータネットワーク内の段階で反復的に洗練されます。画像レベルでのスタイル制御は従来のGANと同じですが、オブジェクトマスクレベルでのスタイル制御は提案される新しい特徴正規化スキーム、「インスタンス感応型かつレイアウト認識型正規化」(Instance-Sensitive and Layout-Aware Normalization)によって実現されます。実験では、提案手法がCOCO-StuffデータセットとVisual Genomeデータセットで最先端の性能を達成していることを示しています。


AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助
すぐに使える GPU
最適な料金体系

HyperAI Newsletters

最新情報を購読する
北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします
メール配信サービスは MailChimp によって提供されています