
이미지 구성은 이미지 처리에서 가장 중요한 응용 분야 중 하나입니다. 그러나 스피싱된 영역과 배경 사이의 불화합적인 외관은 이미지의 품질을 저하시킵니다. 따라서 본 연구에서는 이미지 조화(Image Harmonization) 문제를 다룹니다: 스피싱된 이미지와 스피싱된 영역의 마스크가 주어졌을 때, 붙여진 영역의 '스타일'을 배경(스피싱되지 않은 영역)과 일치시키는 것입니다. 기존 접근 방식들은 신경망에 의해 직접 학습하는 데 초점을 맞추었습니다. 이번 연구에서는 경험적 관찰에서 출발합니다: 스피싱된 이미지와 조화된 결과 간의 차이는 스피싱된 영역에서만 발견되며, 이들은 동일한 의미 정보와 비스피싱 영역의 외관을 공유합니다. 따라서 마스크된 영역과 다른 영역의 특징 맵을 개별적으로 학습하기 위해 새로운 주목 모듈인 공간 분리 주목 모듈(Spatial-Separated Attention Module, S2AM)을 제안합니다. 또한, Unet 구조의 더 거친 저레벨 특징에 S2AM을 두 가지 방법으로 삽입하여 새로운 이미지 조화 프레임워크를 설계하였습니다. 이미지 조화뿐만 아니라, 이전 관찰에 따라 특정 마스크 없이 복합 이미지를 조화시키는 큰 진전도 이루어졌습니다. 실험 결과, 제안된 S2AM은 우리의 작업에서 다른 최신 주목 모듈들보다 우수한 성능을 보였습니다. 또한, 여러 관점에서 평가 기준을 통해 본 연구 모델이 다른 최신 이미지 조화 방법들보다 우월함을 입증하였습니다. 코드는 https://github.com/vinthony/s2am 에서 확인할 수 있습니다.