2ヶ月前
多チャネル注意選択GANと連続的な意味論的ガイダンスを用いたクロスビュー画像変換
Tang, Hao ; Xu, Dan ; Sebe, Nicu ; Wang, Yanzhi ; Corso, Jason J. ; Yan, Yan

要約
異なる視点や深刻な変形を伴う画像を扱うクロスビュー画像翻訳は、非常に困難です。本論文では、シーンの画像と新しい意味論的地図に基づいて任意の視点での自然シーンの画像生成を可能にする新規手法であるマルチチャネルアテンションセレクションGAN(SelectionGAN)を提案します。提案されたSelectionGANは、意味論的情報を明示的に利用し、2つのステージで構成されています。第1ステージでは、条件付き画像と目標の意味論的地図が循環型意味論誘導生成ネットワークに投入され、初期の粗い結果が生成されます。第2ステージでは、マルチチャネルアテンションセレクション機構を使用して初期結果を精緻化します。さらに、アテンションから自動的に学習される不確実性マップが画素損失のガイドとして使用され、ネットワークの最適化が改善されます。Dayton, CVUSA, Ego2Topデータセットにおける広範な実験により、当モデルが最先端の手法よりも著しく優れた結果を生成できることを示しています。ソースコード、データおよび学習済みモデルは、https://github.com/Ha0Tang/SelectionGAN で入手可能です。