
要約
画像補完は、畳み込みニューラルネットワーク(CNN)の強力なテクスチャモデリング能力により、著しい進展を遂げてきた。しかし、CNNには局所的な誘導的事前知識(local inductive prior)や空間不変カーネル(spatial-invariant kernels)といった固有の特性があるため、グローバル構造の理解や多様な補完(pluralistic completion)を自然にサポートする能力に欠ける。近年、トランスフォーマー(transformer)は長期依存関係のモデリングや多様な出力を生成する能力においてその優位性を示しているが、入力長に二次的に増加する計算複雑性のため、高解像度画像の処理への応用が制限されている。本研究では、これらの長所を統合した多様な画像補完手法を提案する。具体的には、トランスフォーマーを用いて外観事前知識(appearance prior)を再構築し、CNNを用いて粗いテクスチャを補完する。前者のトランスフォーマーは、複数の整合性のある構造と粗いテクスチャを同時に復元し、後者のCNNは、高解像度のマスク画像をガイドとして、粗い事前知識の局所的なテクスチャ細部を強化する。提案手法は、以下の3点において最先端の手法を大きく上回っている:1)決定論的補完手法と比較しても、画像の忠実度(fidelity)において顕著な向上を達成;2)多様な補完において、より高い多様性とより高い忠実度を実現;3)大規模なマスクや汎用データセット(例:ImageNet)において、優れた汎化能力を示す。