2ヶ月前

再構成可能なレイアウトとスタイルからの画像合成

Sun, Wei ; Wu, Tianfu

要約

最近の無条件および条件付き画像合成における著しい進歩にもかかわらず、再構成可能な空間配置（つまり、画像ラティス内のバウンディングボックスとクラスラベル）とスタイル（つまり、潜在ベクトルによって符号化された構造的および外観的な変動）から現実的で鮮明な画像を生成できる生成モデルを学習することは、特に高解像度において longstanding problem である。再構成可能とは、与えられた配置から異なるスタイルを持つ複数の妥当な画像への内在的一対多のマッピングを保ちつつ、配置やスタイル潜在コードの摂動に対して適応的であることを意味する。本論文では、再構成可能な配置とスタイルから画像を生成するために end-to-end で訓練できる生成敵対ネットワーク（Generative Adversarial Networks, GANs）の新しいアーキテクチャである LostGANs を提案する。従来の StyleGAN に着想を得て、提案された LostGAN には以下の2つの新規コンポーネントが含まれている：(i) レイアウトと画像間のギャップを埋めるために弱教師あり方法で微細なマスクマップを学習し、(ii) 複数オブジェクトのスタイル生成を実現するためにジェネレータ内でオブジェクトインスタンス固有のレイアウト認識特徴正規化（Object Instance-Specific Layout-Aware Feature Normalization, ISLA-Norm）を学習する。実験では、COCO-Stuff データセットと Visual Genome データセットを使用して評価を行い、最先端の性能が得られた。本研究で使用したコードと事前学習済みモデルは \url{https://github.com/iVMCL/LostGANs} から入手可能である。注：「longstanding problem」は「長年の課題」と訳しました。「end-to-end」は「エンドツーエンド」と訳しました。これらの表現は日本語でもよく使用されるためです。また、「ISLA-Norm」については略称としてそのまま使用し、完全形も括弧内に記載しました。