변형기에서 정보 손실 줄이기: 다원론적 이미지 인페인팅을 위한 방법

트랜스포머는 최근 다중 이미지 인페인팅에서 큰 성공을 거두었습니다. 그러나 우리는 기존의 트랜스포머 기반 솔루션들이 각 픽셀을 토큰으로 취급하여 두 가지 측면에서 정보 손실 문제를 겪고 있음을 발견했습니다: 1) 효율성을 고려하여 입력 이미지를 매우 낮은 해상도로 다운샘플링하여 마스크된 영역의 경계에 대한 정보 손실과 추가적인 미스어레인먼트(misalignment)가 발생합니다. 2) $256^3$ RGB 픽셀을 작은 수(예: 512)의 양자화된 픽셀로 양자화합니다. 양자화된 픽셀의 인덱스가 트랜스포머의 입력 및 예측 대상 토큰으로 사용됩니다. 비록 추가적인 CNN 네트워크를 사용하여 저해상도 결과를 업샘플링하고 정교하게 처리하지만, 손실된 정보를 되찾는 것은 어렵습니다.입력 정보를 최대한 유지하기 위해, 우리는 새로운 트랜스포머 기반 프레임워크 "PUT"을 제안합니다. 구체적으로, 입력 다운샘플링을 피하면서 계산 효율성을 유지하기 위해 패치 기반 오토인코더 P-VQVAE를 설계했습니다. 여기서 인코더는 마스크된 이미지를 중복되지 않는 패치 토큰으로 변환하고, 디코더는 인페인팅된 토큰에서 마스크된 영역을 복원하면서 비마스크 영역은 그대로 유지합니다. 양자화로 인한 정보 손실을 제거하기 위해, 양자화되지 않은 트랜스포머(UQ-Transformer)를 적용하였습니다. 이는 P-VQVAE 인코더에서 직접 특징들을 입력으로 받아 양자화 없이 처리하며, 양자화된 토큰들을 단지 예측 대상으로 취급합니다.다양한 실험 결과는 PUT이 이미지 충실도 측면에서 특히 큰 마스크 영역과 복잡한 대규모 데이터셋에 있어 최신 방법론들보다 크게 우수함을 보여주었습니다. 코드는 https://github.com/liuqk3/PUT 에서 확인할 수 있습니다.