WavePaint: 자기지도형 인페인팅을 위한 자원 효율적인 토큰 믹서

이미지 인페인팅(Image inpainting)은 이미지 내 손실된 영역을 합성하는 기술로, 가려진 또는 훼손된 영역을 복원하는 데 기여할 뿐만 아니라 자기지도 학습(self-supervision)을 위한 사전 작업으로도 활용될 수 있다. 현재 최고 수준의 이미지 인페인팅 모델들은 적대적 학습(adversarial) 또는 확산(diffusion) 환경에서 훈련되는 트랜스포머(transformer) 또는 CNN 백본을 기반으로 하여 계산 비용이 매우 높은 편이다. 본 논문은 이러한 비전 트랜스포머의 접근 방식에서 벗어나, 계산 효율성이 뛰어난 WaveMix 기반의 완전 컨볼루션 아키텍처인 WavePaint를 제안한다. 이 모델은 2차원 이산 웨이블릿 변환(2D-discrete wavelet transform, DWT)을 활용하여 공간적 특성과 다중 해상도 토큰 믹싱(token-mixing)을 수행하며, 컨볼루션 레이어와 결합한다. 제안된 모델은 재구성 품질 측면에서 현재 최고 수준의 이미지 인페인팅 모델을 능가하면서도, 파라미터 수가 절반 이하이며 훈련 및 평가 시간도 상당히 단축된다. 특히, 적대적 학습 가능한 디스크리미네이터를 사용하지 않고도 CelebA-HQ 데이터셋에서 기존 GAN 기반 아키텍처를 초월하는 성능을 달성하였다. 본 연구는 자연 이미지 사전 지식(natural image priors)을 기반으로 설계된 신경망 아키텍처가 트랜스포머 수준의 일반화 성능을 달성하기 위해 더 적은 파라미터와 계산량을 필요로 함을 시사한다.