
画像調和(Image harmonization)は、特定の背景に対して合成領域の色を調整するタスクを指す。従来の手法では、UNet系のネットワーク構造を用いてピクセル単位の画像間変換としてこのタスクをモデル化していた。しかし、モデルのサイズおよび計算コストが大きいため、エッジデバイスや高解像度画像における適用に制限が生じていた。本研究では、初めて効率的かつ高解像度対応の画像調和を実現する新しい空間分離曲線レンダリングネットワーク(S²CRNet: Spatial-separated Curve Rendering Network)を提案する。S²CRNetでは、まずマスクされた前景と背景のサムネイルから空間分離型の埋め込み表現を個別に抽出する。次に、線形層を用いて空間特徴を学習・統合する曲線レンダリングモジュール(CRM: Curve Rendering Module)を設計し、前景領域における区分的曲線マッピングのパラメータを生成する。最終的に、学習済みの色曲線を用いて元の高解像度画像を直接レンダリングする。さらに、連鎖的精緻化と意味的ガイダンスを実現するため、Cascaded-CRMおよびSemantic-CRMという2つの拡張構造も提案している。実験の結果、本手法は従来手法と比較してパラメータ数を90%以上削減しつつ、合成データセットiHarmony4および実世界データセットDIHの両方で最先端の性能を達成した。また、本手法は2048×2048などの高解像度画像に対しても0.1秒以内で処理可能であり、既存のすべての手法と比較してGPUの計算リソースを大幅に低減している。コードは、\url{http://github.com/stefanLeong/S2CRNet}にて公開予定である。