Command Palette
Search for a command to run...
条件付きGANを用いたクロスビュー画像合成
条件付きGANを用いたクロスビュー画像合成
Regmi Krishna Borji Ali
概要
自然景観の生成は、コンピュータビジョン分野において常に挑戦的な課題である。特に、視点が著しく異なる画像を条件として生成を行う場合、その難易度はさらに高くなる。これは、異なる視点間で外観情報および意味情報を正しく理解し、対応付け、変換することが容易ではないためである。本論文では、空中画像から街角ビューへ、あるいはその逆の画像間で、視点を跨ぐ画像合成という新規な問題に、条件付き生成対抗ネットワーク(cGAN)を用いて取り組む。64×64ピクセルおよび256×256ピクセルの解像度で自然景観を生成できる2つの新規アーキテクチャ、Crossview Fork(X-Fork)およびCrossview Sequential(X-Seq)を提案する。X-Forkアーキテクチャは、単一のディスクリミネータと単一のジェネレータから構成され、ターゲット視点における画像とそのセマンティックセグメンテーションマップの両方を幻覚生成(hallucinate)する。一方、X-Seqアーキテクチャは2つのcGANを用いる。最初のcGANがターゲット画像を生成し、その出力を次のcGANにフィードバックして、対応するセマンティックセグメンテーションマップを生成する。後者のcGANからのフィードバックにより、最初のcGANはより鮮鋭な画像を生成することができる。本研究で提案する両アーキテクチャは、自然画像とそのセマンティックセグメンテーションマップの両方を学習して生成する能力を持つ。提案手法は、シーンの視覚的外観のみを考慮する従来の画像間翻訳手法と比較して、元画像とターゲット画像の両方における物体の真の意味情報をよりよく捉え、保持できることを示している。定性的および定量的な広範な評価により、最先端の2つの手法と比較して、本研究のフレームワークが、著しく異なる視点間での自然景観生成において有効であることが裏付けられている。