kMaX-DeepLab: k-means 마스크 변환기

비전 작업에서 트랜스포머의 등장은 네트워크 백본 설계를 발전시키는 것뿐만 아니라, 객체 검출 및 팬오믹 세그멘테이션과 같은 엔드투엔드 이미지 인식 분야에 새로운 장을 열었습니다. 자연어 처리(NLP)에서 유래된 트랜스포머 아키텍처는 자기 주의(self-attention)와 교차 주의(cross-attention)로 구성되어 있으며, 시퀀스 내 요소들 간의 장거리 상호작용을 효과적으로 학습합니다. 그러나 우리는 대부분의 기존 비전 모델들이 NLP에서 아이디어를 단순히 차용하여 언어와 이미지 사이의 중요한 차이, 특히 공간적으로 평면화된 픽셀 특징들의 매우 긴 시퀀스 길이를 간과하고 있다는 것을 관찰하였습니다. 이는 픽셀 특징과 객체 쿼리 간의 교차 주의 학습을 방해하는 결과를 초래합니다. 본 논문에서는 픽셀과 객체 쿼리 간의 관계를 재고하고, 교차 주의 학습을 클러스터링 과정으로 재구성하는 방법을 제안합니다. 전통적인 k-means 클러스터링 알고리즘에서 영감을 얻어, 세그멘테이션 작업을 위한 k-means 마스크 트랜스포머(kMaX-DeepLab)를 개발하였습니다. 이 모델은 최신 기술을 개선할 뿐만 아니라 간단하고 우아한 설계를 제공합니다. 그 결과, kMaX-DeepLab은 테스트 시간 증강이나 외부 데이터셋 없이 COCO 검증 세트에서 58.0% PQ, Cityscapes 검증 세트에서 68.4% PQ, 44.0% AP, 83.5% mIoU, 그리고 ADE20K 검증 세트에서 50.9% PQ와 55.2% mIoU라는 새로운 최고 성능을 달성하였습니다. 우리는 우리의 연구가 비전 작업에 맞춤화된 트랜스포머 설계에 대한 이해를 깊게 하는 데 도움이 되기를 바랍니다. TensorFlow 코드와 모델은 https://github.com/google-research/deeplab2 에서 다운로드 가능하며, PyTorch 재구현 버전도 https://github.com/bytedance/kmax-deeplab 에서 이용할 수 있습니다.