
초록
최신 딥 러닝 기반 접근 방식은 이미지의 결손 영역을 채우는 어려운 작업인 인페인팅에서 유망한 결과를 보여주었습니다. 그러나 기존 방법들은 종종 로컬 픽셀의 불연속성으로 인해 흐린 질감과 왜곡된 구조를 생성합니다. 의미 수준 관점에서 볼 때, 이는 이러한 방법들이 구멍 영역의 의미적 관련성과 특징 연속성을 무시하기 때문입니다. 이 문제를 해결하기 위해, 우리는 사람들의 사진 수리 행동을 조사하고 새로운 일관된 의미 주의(CSA) 계층을 포함하는 세밀한 딥 제너레이티브 모델 기반 접근 방식을 제안합니다. 이 접근 방식은 문맥 구조를 유지할 뿐만 아니라, 구멍 특징 간의 의미적 관련성을 모델링하여 결손 부분을 더 효과적으로 예측할 수 있습니다. 이 작업은 대략적인 단계와 정교화 단계로 나누어 U-Net 아키텍처 하에서 각 단계를 신경망으로 모델링하며, 여기서 CSA 계층은 정교화 단계의 인코더에 내장됩니다. 네트워크 학습 과정을 안정화시키고 CSA 계층이 더 효과적인 매개변수를 학습하도록 하기 위해, 우리는 지상 진실 이미지의 VGG 특징 계층과 동시에 CSA 계층 및 디코더의 해당 계층이 가까워지도록 하는 일관성 손실 함수를 제안합니다. CelebA, Places2, 그리고 파리 스트리트뷰 데이터셋에 대한 실험은 우리의 제안 방법이 이미지 인페인팅 작업에서 효과적이며, 기존 최첨단 접근 방식보다 더 높은 품질의 이미지를 얻을 수 있음을 검증하였습니다.