
要約
画像調和は、合成画像において前景の外観を調整し、前景と背景の不整合を解消する重要なステップです。既存の手法は主に相関のある $RGB$ 色空間で動作しますが、これにより特徴量が絡み合い、表現能力が制限される傾向があります。対照的に、非相関色空間(例:$Lab$)では、非相関のチャンネルが分離された色と照明統計情報を提供します。本論文では、二重色空間における画像調和を探求し、絡み合った $RGB$ 特徴量に加えて、分離された $L$, $a$, $b$ 特徴量を使用することで、調和プロセスの負荷を軽減することを目指しています。ネットワークは $RGB$ 調和バックボーン、$Lab$ エンコーディングモジュール、および $Lab$ 制御モジュールから構成されています。バックボーンは U-Net ネットワークであり、合成画像を調和済み画像に変換します。$Lab$ エンコーディングモジュール内の3つのエンコーダーは、それぞれ $L$, $a$, $b$ チャンネルから独立して3つの制御コードを抽出し、これらのコードは $Lab$ 制御モジュールを通じて調和バックボーン内のデコーダー特徴量を操作するために使用されます。当研究のコードとモデルは \href{https://github.com/bcmi/DucoNet-Image-Harmonization}{https://github.com/bcmi/DucoNet-Image-Harmonization} で公開されています。