3달 전

Transformer 기반 세분화를 위한 디코더의 재고: 압축 관점에서

Qishuai Wen, Chun-Guang Li
Transformer 기반 세분화를 위한 디코더의 재고: 압축 관점에서
초록

기존의 Transformer 기반 의미 분할(State-of-the-art methods for Transformer-based semantic segmentation)은 일반적으로 이미지 임베딩에서 크로스 어텐션을 통해 추가적인 임베딩을 추출하고, 자체 어텐션을 통해 이미지 임베딩과/또는 추가 임베딩을 개선한 후, 도트 곱(dot-product) 연산을 통해 이미지 임베딩을 추가 임베딩에 투영하는 Transformer 디코더를 사용한다. 이러한 방법들은 놀라운 성과를 거두고 있으나, 여전히 이론적 근거나 해석이 부족하여 보다 체계적인 개선이 어렵다는 한계가 있다. 본 논문에서는 의미 분할과 압축(compression) 간의 근본적인 연결성을 주장하며, 특히 Transformer 디코더와 주성분 분석(Principal Component Analysis, PCA) 간의 관계를 강조한다. 이러한 관점에서, 원칙적인 의미 분할을 위한 흰 상자(white-box), 전적으로 어텐션 기반의 디코더인 DEPICT(Decoder for PrIncipled semantiC segemenTation)를 도출한다. 그 해석은 다음과 같다: 1) 자체 어텐션 연산자는 감독 정보와 일치하고 가장 많은 정보를 유지하는 이상적인 주성분 부분공간을 구성하기 위해 이미지 임베딩을 개선한다; 2) 크로스 어텐션 연산자는 개선된 이미지 임베딩의 낮은 랭크 근사(low-rank approximation)를 탐색하며, 이는 주성분 부분공간의 정규직교 기저(orthonormal bases)를 형성하고 미리 정의된 클래스에 대응된다; 3) 도트 곱 연산은 이미지 임베딩에 대한 컴팩트한 표현을 생성하여 분할 마스크로 활용된다. ADE20K 데이터셋에서 수행된 실험 결과, DEPICT는 블랙박스 형태의 대조군인 Segmenter를 일관되게 상회하며, 가볍고 더 강건한 성능을 보였다.