17일 전
ViTMatte: 사전 훈련된 플레인 비전 트랜스포머를 통한 이미지 매트팅 성능 향상
Jingfeng Yao, Xinggang Wang, Shusheng Yang, Baoyuan Wang

초록
최근 들어, 플레인 비전 트랜스포머(ViTs)는 강력한 모델링 능력과 대규모 사전 학습 기반으로 다양한 컴퓨터 비전 작업에서 놀라운 성능을 보여주고 있다. 그러나 이미지 매팅(image matting) 문제에는 아직 완전히 승리하지 못했다. 우리는 이미지 매팅 또한 ViT의 잠재력을 통해 향상될 수 있다고 가정하고, 새로운 효율적이고 견고한 ViT 기반 매팅 시스템인 ViTMatte를 제안한다. 본 연구의 방법은 (i) 혼합형 어텐션 메커니즘과 컨볼루션 넥(neck)을 결합하여 ViT가 매팅 작업에서 우수한 성능-계산량 균형을 달성하도록 지원한다. (ii) 또한, 단순한 경량 컨볼루션으로 구성된 세부 정보 캡처 모듈(detail capture module)을 도입하여 매팅에 필수적인 세부 정보를 보완한다. 우리 지식상으로는 ViTMatte가 간결한 적응 방식을 통해 ViT의 이미지 매팅 분야 잠재력을 최초로 실현한 작업이다. 이는 매팅에 ViT의 여러 우수한 특성을 이어받았으며, 다양한 사전 학습 전략, 간결한 아키텍처 설계, 유연한 추론 전략 등을 포함한다. 우리는 Composition-1k와 Distinctions-646이라는 이미지 매팅 분야에서 가장 널리 사용되는 벤치마크에서 ViTMatte를 평가하였으며, 최신 기술 수준의 성능을 달성하여 기존 매팅 기법들에 비해 크게 앞서는 결과를 보였다.