
要約
深層ニューラルネットワークの性能向上に向けたデータ拡張は、実務上標準的な手法となっているが、生成対抗ネットワーク(GAN)に対する拡張戦略の開発には、あまり注目が集まっていない。本研究では、GANに基づくセマンティック画像生成モデルに特化した新たな拡張スキームを提案する。具体的には、生成器の入力として用いられるセマンティックラベルマップにおけるオブジェクト形状をランダムに歪ませる手法を導入する。歪められたラベルマップと歪められていないラベルマップの間の局所的な形状差異により、GANはシーンの構造的・幾何学的詳細をよりよく学習できるようになり、結果として生成画像の品質が向上する。一方で、拡張されたGANモデルと従来型モデルを比較検証する中で、従来のセマンティック画像生成研究で報告されている評価指標が、外部の事前学習済みセグメンテーションネットワークを用いて算出されていることから、特定のセマンティッククラスに強く偏っていることを発見した。この問題に対処するため、提示されたセグメンテーションネットワークにおける偏りのあるクラスと偏りのないクラスに分けて生成画像の性能を分析することで、既存のセマンティック画像生成評価フレームワークの改善を提案する。最終的に、本研究で提案する拡張スキームが、3つの異なるデータセット(COCO-Stuff、ADE20K、Cityscapes)において、最先端のセマンティック画像生成モデルを用いて、定量的・定性的に顕著な性能向上を達成することを示した。COCO-Stuff、ADE20K、Cityscapesの3データセット全体にわたり平均して、拡張モデルは従来型モデルに対してmIoUで約3ポイント、FIDで約10ポイントの向上を達成した。