17日前
あなたがセマンティック画像合成に必要なのは、敵対的教師信号だけである
Vadim Sushko, Edgar Schönfeld, Dan Zhang, Juergen Gall, Bernt Schiele, Anna Khoreva

要約
最近の成功にもかかわらず、セマンティック画像合成におけるGANモデルは、敵対的教師(adversarial supervision)のみを用いて訓練される場合、依然として画像品質が低くなるという課題を抱えている。歴史的に、VGGベースの知覚損失(perceptual loss)を併用することでこの問題は一定程度克服されており、合成品質が顕著に向上したが、同時にGANモデルの進展が制限される要因ともなってきた。本研究では、敵対的教師のみで高品質な結果を達成可能な、新たな簡素化されたGANモデルを提案する。本モデルでは、ディスクリミネータをセマンティックセグメンテーションネットワークとして再設計し、与えられたセマンティックラベルマップを直接教師信号として用いる。空間的・意味的認識を備えたディスクリミネータのフィードバックにより、ディスクリミネータおよび生成器の両方に強力な監視信号を提供することで、入力ラベルマップとの整合性が高く、より高忠実度の画像を合成することが可能となり、知覚損失の使用が不要となる。さらに、生成器に注入する3次元ノイズテンソルのグローバルおよびローカルなサンプリングにより、高品質なマルチモーダル画像合成を実現し、画像の完全または部分的な変更を可能にする。実験結果から、本モデルによって生成された画像はより多様性に富み、実画像の色調およびテクスチャ分布をより正確に再現していることが示された。異なるデータセットにおいて、知覚損失を一切使用せずに、最新の手法と比較して平均でFIDが6ポイント、mIoUが5ポイントの向上を達成した。