9日前
CM-GAN:カスケード型モジュレーションGANとオブジェクト認識型トレーニングを用いた画像補完
Haitian Zheng, Zhe Lin, Jingwan Lu, Scott Cohen, Eli Shechtman, Connelly Barnes, Jianming Zhang, Ning Xu, Sohrab Amirghodsi, Jiebo Luo

要約
最近の画像補間手法は著しい進展を遂げているが、複雑な画像における大きな穴を処理する際には、現実的な画像構造を生成する点で困難に直面することが多い。これは、画像の長距離依存関係と高レベルな意味情報を効果的に捉えることができるネットワーク構造の不足に起因する部分がある。本研究では、入力画像に穴がある状態からマルチスケールの特徴表現を抽出するフーリエ畳み込みブロックを備えたエンコーダと、各スケールレベルに新規の段階的グローバル・スパティアルモジュレーションブロックを搭載した二重ストリームデコーダからなる、新たなネットワーク設計である「カスケードモジュレーションGAN(CM-GAN)」を提案する。デコーダの各ブロックでは、まずグローバルモジュレーションを適用して粗い構造の合成と意味認識に基づく構造生成を行い、その後、空間的に適応的な形で特徴マップをさらに調整するスパティアルモジュレーションを実行する。さらに、穴内に新たな物体を「幻覚」させないよう防止するため、物体に配慮した学習スキームを設計することで、実世界のオブジェクト除去タスクにおける要件を満たす。広範な実験により、本手法が定量的・定性的な評価の両面で既存手法を顕著に上回ることを示した。プロジェクトページについては、以下のURLを参照されたい:\url{https://github.com/htzheng/CM-GAN-Inpainting}。