2ヶ月前

学習する内容と描画位置の決定

Scott Reed; Zeynep Akata; Santosh Mohan; Samuel Tenka; Bernt Schiele; Honglak Lee
学習する内容と描画位置の決定
要約

生成対抗ネットワーク(GANs)は最近、部屋の内装、アルバムカバー、漫画、顔、鳥、花などの説得力のある実世界の画像を合成する能力を示しています。既存のモデルはクラスラベルやキャプションなどの全体的な制約に基づいて画像を合成できますが、ポーズやオブジェクトの位置に対するコントロールは提供していません。本稿では、何をどこに描くかを指示する命令を与えることで画像を合成する新しいモデルである「生成対抗何処ネットワーク」(Generative Adversarial What-Where Network, GAWWN)を提案します。Caltech-UCSD Birdsデータセットにおいて、非公式なテキスト記述とオブジェクト位置の両方に基づいた高品質な128 x 128ピクセルの画像合成を示しています。当システムは鳥のバウンディングボックスとその構成要素に対してコントロールを提供します。部分位置の条件付き分布をモデル化することで、任意の部分集合(例:嘴と尾のみ)に対する条件付けも可能となり、効率的な部分位置選択インターフェースが実現できます。また、MPIIヒューマンポーズデータセットにおける人間の行動のテキストおよび位置制御可能な画像合成というより困難な領域での初步的な結果も示しています。