9일 전
MAT: 대규모 구멍 이미지 복원을 위한 마스크 인지 트랜스포머
Wenbo Li, Zhe Lin, Kun Zhou, Lu Qi, Yi Wang, Jiaya Jia

초록
최근 연구들은 이미지 복원(inpainting) 문제에서 장거리 상호작용을 모델링하는 것의 중요성을 보여주었다. 이를 달성하기 위해 기존의 접근법들은 단독으로 주의(attention) 기법이나 트랜스포머(Transformer)를 활용하지만, 계산 비용을 고려하여 일반적으로 낮은 해상도에서 수행된다. 본 논문에서는 대규모 구멍을 보완하는 데 적합한 새로운 트랜스포머 기반 모델을 제안한다. 이 모델은 트랜스포머와 합성곱(Convolution)의 장점을 통합하여 고해상도 이미지를 효율적으로 처리할 수 있다. 또한, 복원된 이미지의 정밀도와 다양성을 보장하기 위해 프레임워크의 각 구성 요소를 신중하게 설계하였다. 구체적으로, 이미지 복원에 최적화된 트랜스포머 블록을 설계하였으며, 여기서 주의 모듈은 동적 마스크에 의해 표시된 부분적인 유효 토큰들로부터만 비국소적 정보를 집계한다. 광범위한 실험을 통해 제안한 모델이 여러 벤치마크 데이터셋에서 최첨단 성능을 보임을 입증하였다. 코드는 https://github.com/fenglinglwb/MAT 에서 공개된다.