
自然なシーンの生成は、コンピュータビジョンにおいて常に挑戦的な課題であり、特に視点が大きく異なる画像を条件として生成する際にはより困難となります。これは、視点間での外観情報と意味情報の理解、対応付け、変換が容易ではないためです。本論文では、条件付きジェネレーティブアドバーザリアルネットワーク(cGAN)を使用して、空撮画像から街並み画像への合成およびその逆の新しい問題であるクロスビュー画像合成を解決しようと試みています。64x64ピクセルと256x256ピクセルの解像度でシーンを生成するために、「クロスビューフォーク(X-Fork)」と「クロスビューシーケンシャル(X-Seq)」という2つの新しいアーキテクチャを提案します。X-Forkアーキテクチャは単一の識別器と単一のジェネレーターを持ちます。このジェネレーターは目標視点での画像とその意味セグメンテーションを両方生成します。一方、X-Seqアーキテクチャは2つのcGANを利用します。最初のcGANは目標画像を生成し、その後で生成された画像が次のcGANに供給されて対応する意味セグメンテーションマップが生成されます。2番目のcGANからのフィードバックにより、最初のcGANはより鮮明な画像を生成することができます。我々が提案した両アーキテクチャは自然な画像だけでなく、その意味セグメンテーションマップも生成することを学習します。提案手法は、従来のシーン間の視覚的外観のみを考えるイメージ・トゥ・イメージ翻訳手法よりも、ソースビューとターゲットビューにおける物体の真実の意味情報を捉え維持する能力が高いことを示しています。広範な定性的評価と定量的評価により、我々のフレームワークが大幅に異なる視点間での自然なシーン生成において現行最良の2つの手法よりも効果的であることが確認されています。