계층적 동적 이미지 조화화

이미지 조화화는 컴퓨터 비전 분야에서 핵심적인 과제로, 전경을 배경과 조화되게 조정하는 것을 목표로 한다. 최근의 연구들은 주로 전역적 변환(예: 정규화 및 색상 곡선 렌더링)을 활용하여 시각적 일관성을 달성하는 데 초점을 맞추고 있다. 그러나 이러한 모델들은 국소적 시각적 일관성을 무시하며, 모델 크기가 크기 때문에 에지 디바이스에서의 조화화 능력이 제한된다. 본 논문에서는 효율적인 이미지 조화화를 위한 특징 변환을 향상시키기 위해 국소적 시각에서 전역적 시각으로 특징을 적응시키는 계층적 동적 네트워크(HDNet)를 제안한다. 다양한 동적 모델의 성공 사례를 영감으로 삼아, 국소적 동적(LD) 모듈과 마스크 인식형 전역적 동적(MGD) 모듈을 제안한다. 구체적으로, LD 모듈은 전경과 배경 영역 간의 의미적 유사성 기반으로 국소적 표현을 매칭한 후, 해당 전경 영역의 $K$개의 가장 가까운 이웃 배경 영역의 외관에 따라 각 전경 국소 표현을 적응적으로 조정한다. 이를 통해 LD 모듈은 더 세밀한 수준에서 더 현실적인 이미지를 생성할 수 있으며, 동시에 의미적 정렬 특성을 갖는다. MGD 모듈은 전경과 배경에 대해 서로 다른 컨볼루션을 효과적으로 적용함으로써, 전경 및 배경 영역의 표현과 그 상호 관계를 학습하여 전역적 조화화에 기여함으로써, 이미지의 국소적 시각적 일관성을 훨씬 더 효율적으로 향상시킨다. 실험 결과, 제안한 HDNet은 이전 방법 대비 총 모델 파라미터 수를 80% 이상 감소시키면서도 인기 있는 iHarmony4 데이터셋에서 최신 기술 수준의 성능을 유지함을 입증하였다. 특히, 기존 최고 성능 모델 대비 PSNR에서 4% 향상되고 MSE는 19% 감소하는 성과를 달성하였다.