
最近、データ駆動型の画像補填(image inpainting)手法は著しい進展を遂げており、オブジェクト除去や損傷した画像の修復といった基本的な画像編集タスクに大きな影響を与えている。これらの手法は従来のアプローチに比べてより効果的であるが、メモリ制限のため、通常1K未満の低解像度入力のみを処理可能である。一方で、モバイルデバイスで撮影される画像の解像度は8Kにまで達している。低解像度の補填結果を単純にアップサンプリングしても、大きさは増すもののぼやけた結果しか得られず、品質が不十分となる。一方で、ぼやけた大規模な画像に高周波成分の残差(high-frequency residual)を加算することで、詳細やテクスチャ豊かな鮮明な結果が得られる。この知見に着目し、本研究では、文脈的なパッチから得られる残差を重み付きで集約することにより、欠落領域に対応する高周波残差を生成する「文脈的残差集約(Contextual Residual Aggregation: CRA)」機構を提案する。これにより、ネットワークが低解像度の予測結果のみを出力すればよく、高解像度の入出力は不要となる。さらに、ニューラルネットワークの畳み込み層は低解像度の入出力上で動作するため、メモリ使用量と計算コストが大幅に抑えられる。また、高解像度のトレーニングデータセットの必要性も軽減される。実験では、512×512解像度の小さな画像でモデルを学習し、高解像度画像に対して推論を行うことで、優れた補填品質を達成した。本モデルは、8K解像度かつ大きな穴を含む画像の補填を可能にし、従来の学習ベース手法では実現が困難であったタスクを実現した。さらに、ネットワークアーキテクチャの軽量化設計を詳細に検討し、GTX 1080 Ti GPU上で2K解像度の画像に対してリアルタイム処理を実現した。コードは以下のURLで公開されている:Atlas200dk/sample-imageinpainting-HiFill。