
要約
我々は、地上(街頭)視点と空中(上空)視点という著しく異なる2つの視点間で画像を生成する問題に取り組んでいます。画像合成自体は非常に挑戦的なコンピュータビジョンのタスクであり、他の視点の画像に基づいて生成を行う場合はさらに困難となります。視点の違いにより、これらの2つの視点間での重複する視野範囲が小さく、共通のコンテンツも少ないです。ここでは、生成された画像がクロスビュー入力画像の現実的な表現となるように、各視点間でのピクセル情報の保存を目指しています。そのため、共通する視野範囲に基づいて画像をマッピングし、入力画像の詳細を保存するためにホモグラフィーを使用することを提案します。その後、変換された画像内の欠損領域を補完し、リアリティを追加するために生成対抗ネットワーク(Generative Adversarial Networks, GANs)を使用します。我々の包括的な評価とモデル比較は、幾何学的制約を利用することで生成された画像に微細な詳細が追加され、純粋にピクセルベースの合成方法よりもクロスビュー画像合成においてより良いアプローチであることを示しています。