
最新の画像補間(image inpainting)手法は、高解像度画像(例:512×512)において歪んだ構造やぼやけたテクスチャの生成を引き起こすことがある。この課題の主な原因は、(1)遠方の文脈からの画像コンテンツ推論、および(2)大規模な欠損領域における細粒度のテクスチャ合成の難しさにある。これらの課題を克服するため、本研究では、高解像度画像補間を目的とした拡張型GANベースモデル「Aggregated COntextual-Transformation GAN(AOT-GAN)」を提案する。具体的には、文脈推論能力の強化のため、AOT-GANの生成器に、提案するAOTブロックを複数層積層して構築している。AOTブロックは、異なる受容fieldから得られる文脈変換を統合することで、遠方の情報豊かな画像文脈と、文脈推論に有用な詳細なパターンの両方を捉えることが可能となる。また、テクスチャ合成性能の向上のため、AOT-GANの識別器に特化したマスク予測タスクを導入して訓練している。この訓練目標により、識別器は実際の画像領域と合成された領域の詳細な外観を区別する能力が強化され、結果として生成器は明確なテクスチャを生成する能力が向上する。180万枚の高解像度画像(365種類の複雑なシーン)を含む、最も挑戦的なベンチマークであるPlaces2での広範な比較実験の結果、FID指標において従来の最先端手法と比較して38.60%の相対的改善を達成し、顕著な性能向上を示した。さらに、30名以上の被験者を対象としたユーザー調査により、AOT-GANの優位性がさらに裏付けられた。また、ロゴ除去、顔面編集、物体除去といった実用的な応用シーンにおいてもAOT-GANの有効性を評価した結果、現実世界での実用的な補間結果が得られることを確認した。本研究で提案するAOT-GANのコードおよびモデルは、https://github.com/researchmm/AOT-GAN-for-Inpainting にて公開している。