11일 전
MlTr: Transformer를 활용한 다중 레이블 분류
Xing Cheng, Hezheng Lin, Xiangyu Wu, Fan Yang, Dong Shen, Zhongyuan Wang, Nian Shi, Honglin Liu

초록
다중 레이블 이미지 분류의 과제는 이미지 내에 존재하는 모든 객체 레이블을 인식하는 것이다. 수년에 걸쳐 발전해왔음에도 불구하고, 기존의 합성곱 신경망(CNN) 기반 모델은 합성곱 커널의 표현 능력 한계로 인해 소형 객체, 유사한 객체, 그리고 높은 조건부 확률을 가진 객체 처리가 여전히 주요한 한계로 남아 있다. 최근의 비전 트랜스포머 네트워크는 자기 주목(self-attention) 메커니즘을 활용하여 픽셀 단위의 특징을 추출함으로써 더 � rich한 국소적 의미 정보를 표현할 수 있으나, 전역적인 공간적 의존성 탐색에는 여전히 부족함이 있다. 본 논문에서는 CNN 기반 방법이 직면하는 세 가지 핵심 문제를 지적하고, 이를 해결하기 위해 특정 트랜스포머 모듈을 도입할 가능성에 대해 탐구한다. 창문 분할(window partitioning), 창문 내 픽셀 주목(in-window pixel attention), 창문 간 주목(cross-window attention)을 기반으로 구성된 다중 레이블 트랜스포머 아키텍처(MlTr)를 제안한다. 이는 다중 레이블 이미지 분류 작업의 성능을 특히 향상시킨다. 제안된 MlTr는 MS-COCO, Pascal-VOC, NUS-WIDE와 같은 다양한 대표적인 다중 레이블 데이터셋에서 각각 88.5%, 95.8%, 65.5%의 최신 기준(SOTA) 성능을 기록하였다. 코드는 곧 GitHub 페이지(https://github.com/starmemda/MlTr/)에서 공개될 예정이다.