향상된 이미지 인페인팅을 위한 방향: 원치 않는 객체 삽입 완화 및 색상 일관성 유지

최근 이미지 보정(image inpainting) 기술은 대규모 비정형 마스크를 처리하기 위해 점점 더 생성형 모델을 활용하고 있다. 그러나 이러한 모델은 두 가지 주요 문제로 인해 현실적이지 않은 보정 이미지를 생성할 수 있다. 첫째, 불필요한 객체 삽입 문제이다. 마스크 영역 외부의 비마스크 영역이 맥락 정보로 제공되더라도, 생성형 모델은 이미지의 나머지 부분과 일치하지 않는 임의의 객체를 마스크 영역에 생성할 수 있다. 둘째, 색상 일관성 부족 문제이다. 보정된 영역은 색조 이동을 겪어 흐릿하거나 어색한 시각적 효과를 유발하며, 결과적으로 이미지 품질을 저하시킨다. 이러한 문제를 해결하기 위해 생성형 모델을 재학습하는 방안이 존재하지만, 최첨단 잠재 공간 기반 확산 모델과 수정된 흐름( Rectified Flow) 모델은 세 단계의 학습 과정을 필요로 하므로 재학습은 매우 비용이 크다. 즉, VAE 학습, 생성형 U-Net 또는 트랜스포머 모델 학습, 그리고 보정 작업을 위한 미세 조정(fine-tuning)이 필요하다.이에 본 논문은 이러한 문제를 해결하기 위한 후처리 기법을 제안한다. 이를 ASUKA(Aligned Stable inpainting with UnKnown Areas prior)라 명명한다. 불필요한 객체 삽입 문제를 해결하기 위해, 재구성 기반 사전 지식(prior)으로 마스크 자동인코더(Masked Auto-Encoder, MAE)를 활용한다. 이는 객체 환각 현상을 완화하면서도 모델의 생성 능력을 유지하는 데 기여한다. 색상 일관성 문제를 해결하기 위해, 잠재 벡터에서 이미지로의 디코딩을 국소적 조화화(local harmonization) 문제로 간주하는 특화된 VAE 디코더를 제안한다. 이는 색상 편차를 크게 감소시켜 색상 일관성 있는 보정을 가능하게 한다.ASUKA는 SD 1.5 및 FLUX 보정 변형 모델에 대해 Places2 데이터셋과 본 연구에서 제안한 다양한 데이터셋인 MISATO를 기반으로 검증되었다. 실험 결과, ASUKA는 표준 확산 모델과 수정된 흐름 모델, 그리고 기존의 보정 기법들에 비해 객체 환각을 효과적으로 완화하고 색상 일관성을 크게 향상시킴을 입증하였다.