17일 전

MatteFormer: 사전 토큰을 활용한 Transformer 기반 이미지 매트팅

GyuTae Park, SungJoon Son, JaeYoung Yoo, SeHo Kim, Nojun Kwak
MatteFormer: 사전 토큰을 활용한 Transformer 기반 이미지 매트팅
초록

이 논문에서는 트랜스포머 블록 내에서 트림랩(Trimap) 정보를 최대한 활용하는 트랜스포머 기반 이미지 매트팅 모델인 MatteFormer을 제안한다. 본 방법은 각 트림랩 영역(예: 전경, 배경, 미지 영역)에 대한 전역적 표현인 프리오르 토큰(Prior-token)을 도입한다. 이러한 프리오르 토큰은 전역 사전 지식으로서 활용되며, 각 블록의 자기 주의(Multi-Head Self-Attention) 메커니즘에 참여한다. 인코더의 각 단계는 Swin 트랜스포머 블록을 기반으로 하되, 몇 가지 점에서 차별화된 PAST(Prior-Attentive Swin Transformer) 블록으로 구성된다. 첫째, PA-WSA(Prior-Attentive Window Self-Attention) 레이어를 갖추고 있으며, 공간 토큰뿐 아니라 프리오르 토큰과도 자기 주의를 수행한다. 둘째, 이전 블록들로부터 누적된 프리오르 토큰을 저장하는 프리오르 메모리(Prior-memory)를 포함하여 다음 블록으로 전달한다. 제안한 MatteFormer은 일반적으로 사용되는 이미지 매트팅 데이터셋인 Composition-1k 및 Distinctions-646에서 평가되었으며, 실험 결과 본 방법이 큰 차이로 최신 기술(SOTA, State-of-the-Art) 성능을 달성함을 확인하였다. 코드는 https://github.com/webtoon/matteformer 에서 공개되어 있다.

MatteFormer: 사전 토큰을 활용한 Transformer 기반 이미지 매트팅 | 최신 연구 논문 | HyperAI초신경