拡張された画像補填のための取り組み:不要なオブジェクトの挿入を軽減し、色の一貫性を維持する

近年、画像の穴埋め(image inpainting)における進展は、大規模な不規則なマスクを扱うために生成モデルがますます活用されている。しかし、こうしたモデルは以下の2つの主要な課題により、現実的でない穴埋め画像を生成する傾向がある。(1)不要な物体の挿入:マスク領域以外の領域をコンテキストとして提供しても、生成モデルは画像全体と整合性のない任意の物体をマスク領域に生成してしまうことがある。(2)色の不一致:穴埋め領域では色のシフトが生じやすく、結果としてぼやけた印象を与えるため、画像品質が低下する。生成モデルの再訓練によってこれらの問題を解決することは可能だが、最先端の潜在空間ベースの拡散モデルおよび修正流れ(rectified flow)モデルは、3段階の訓練プロセスを必要とするため、コストが非常に高くなる。具体的には、VAEの学習、生成用U-NetまたはTransformerの学習、そして穴埋め用の微調整が必要となる。本研究では、このような課題を解決するため、後処理アプローチを提案する。これをASUKA(Aligned Stable inpainting with UnKnown Areas prior)と呼ぶ。不要な物体の挿入問題に対処するため、再構成に基づく事前知識としてマスク付き自己符号化器(Masked Auto-Encoder: MAE)を活用する。これにより、物体の錯覚(hallucination)を抑制しつつ、モデルの生成能力を維持できる。また、色の不一致問題に対しては、潜在変数から画像への復元を局所的な調和(local harmonization)タスクとして捉える専用のVAEデコーダを提案する。このアプローチにより、色のシフトを顕著に低減し、色の一貫性を保った穴埋めを実現できる。ASUKAは、SD 1.5およびFLUXの穴埋めバージョンに対して、Places2および本研究で提案する多様なデータセットMISATOを用いて検証された。実験結果から、ASUKAは従来の拡散モデルおよび修正流れモデル、さらには他の穴埋め手法と比較して、不要な物体の生成を抑制し、色の一貫性を大幅に改善することが確認された。