階層的動的画像ハーモナイズーション

画像調和(Image harmonization)はコンピュータビジョンにおける重要なタスクであり、前景を背景に調和させるためにその特徴を調整することを目的としている。近年の研究では、視覚的一貫性を達成するために主にグローバル変換(すなわち正規化や色曲線レンダリング)を用いるアプローチが主流である。しかし、これらのモデルは局所的な視覚的一貫性を無視しており、また巨大なモデルサイズのためエッジデバイスでの調和性能に制限がある。本論文では、局所からグローバルな視点へと特徴を適応的に変換することで、効率的な画像調和を実現する階層的動的ネットワーク(Hierarchical Dynamic Network, HDNet)を提案する。さまざまな動的モデルの成功に触発され、本研究では局所動的(Local Dynamic, LD)モジュールとマスク認識型グローバル動的(Mask-aware Global Dynamic, MGD)モジュールを提案する。具体的には、LDモジュールは前景と背景領域間の局所表現を意味的類似性に基づいて一致させ、その後、前景の各局所表現をその$K$近傍の背景領域の外観に応じて適応的に調整する。このアプローチにより、LDモジュールはより細粒度なレベルで現実性の高い画像を生成しつつ、意味的アライメントの特性も維持できる。一方、MGDモジュールは前景と背景に対して別々の畳み込みを効果的に適用し、前景・背景領域の表現およびそれらの相関関係をグローバルな調和に統合することで、局所的な視覚的一貫性をより効率的に実現する。実験結果から、提案手法のHDNetは従来手法と比較してモデルパラメータ数を80%以上削減しながら、代表的なiHarmony4データセットにおいて最先端の性能を達成することが明らかになった。特に、従来の最先端手法と比較してPSNRは4%向上し、MSEは19%低減するという顕著な改善が得られた。