2달 전
해상도에 견디는 큰 마스크 인페인팅을 위한 푸리에 컨볼루션
Roman Suvorov; Elizaveta Logacheva; Anton Mashikhin; Anastasia Remizova; Arsenii Ashukha; Aleksei Silvestrov; Naejin Kong; Harshith Goka; Kiwoong Park; Victor Lempitsky

초록
현대 이미지 인페인팅 시스템은 상당한 발전을 이뤘음에도 불구하고, 큰 결손 영역, 복잡한 기하학적 구조, 그리고 고해상도 이미지에 대해 종종 어려움을 겪습니다. 우리는 이러한 문제의 주요 원인 중 하나가 인페인팅 네트워크와 손실 함수에서 효과적인 수용 필드(receptive field)의 부족 때문이라고 판단하였습니다. 이를 해결하기 위해, 우리는 큰 마스크 인페인팅(LaMa)이라는 새로운 방법을 제안합니다. LaMa는 다음과 같은 세 가지 요소를 기반으로 합니다: i) 이미지 전체 수용 필드를 가진 빠른 푸리에 컨볼루션(Fast Fourier Convolutions, FFCs)을 사용하는 새로운 인페인팅 네트워크 아키텍처; ii) 높은 수용 필드 지각 손실(perceptual loss); iii) 큰 학습 마스크로, 이는 첫 두 구성 요소의 잠재력을 활용할 수 있게 합니다. 우리의 인페인팅 네트워크는 다양한 데이터셋에서 최신 기술(state-of-the-art)을 개선하며, 특히 주기적 구조 완성 등의 어려운 시나리오에서도 우수한 성능을 보입니다. 우리의 모델은 훈련 시점보다 더 높은 해상도에서도 놀랍게도 잘 일반화되며, 경쟁력 있는 기준 모델들보다 낮은 매개변수 및 시간 비용으로 이를 달성합니다. 코드는 \url{https://github.com/saic-mdal/lama}에서 확인할 수 있습니다.