
最近の生成対抗ネットワーク(Generative Adversarial Networks: GANs)の改良により、画像キャプションなどの自然言語記述に基づいて高解像度で現実的な画像を生成することが可能になりました。さらに、条件付きGANs(conditional GANs)を使用することで、ラベルや自然言語記述を通じて画像生成プロセスを制御することができます。しかし、特定のオブジェクトが画像内のどの位置に配置されるべきかという細かい制御は依然として困難です。特に、異なる空間位置に複数の異なるオブジェクトを含むべき画像では、この問題が顕著になります。本研究では、ジェネレータとディスクリミネータにオブジェクトパスウェイを追加することで、画像内に任意の数のオブジェクトの位置を制御できる新しい手法を提案します。当手法は詳細な意味論的レイアウトを必要とせず、目的とするオブジェクトのバウンディングボックスとそのラベルのみが必要です。オブジェクトパスウェイは個々のオブジェクトにのみ焦点を当て、バウンディングボックスで指定された位置で反復的に適用されます。一方、グローバルパスウェイは画像背景と全体的な画像レイアウトに焦点を当てます。我々はMulti-MNIST, CLEVR, そしてより複雑なMS-COCOデータセットにおいて実験を行いました。これらの実験結果から、オブジェクトパスウェイを使用することで、画像内のオブジェクト位置を制御し、さまざまな位置に複数のオブジェクトを持つ複雑なシーンをモデル化できることが示されました。さらに、オブジェクトパスウェイが個々のオブジェクトに焦点を当ててそれに関連する特徴を学習することに対し、グローバルパスウェイが全体的な画像特性と背景に焦点を当てることが確認できました。