3달 전
DPT: 시각 인식을 위한 비틀림 패치 기반 트랜스포머
Zhiyang Chen, Yousong Zhu, Chaoyang Zhao, Guosheng Hu, Wei Zeng, Jinqiao Wang, Ming Tang

초록
Transformer은 컴퓨터 비전 분야에서 큰 성공을 거두었지만, 이미지 내 패치를 어떻게 분할할 것인지에 대한 문제는 여전히 남아 있다. 기존의 방법들은 고정된 크기의 패치 임베딩을 사용하는 경우가 많으며, 이는 객체의 의미 정보를 파괴할 수 있다. 이러한 문제를 해결하기 위해, 우리는 데이터 기반 방식으로 이미지를 다양한 위치와 스케일을 가진 패치로 적응적으로 분할할 수 있는 새로운 변형 가능한 패치(Deformable Patch, DePatch) 모듈을 제안한다. 이 방식을 통해 우리의 방법은 패치 내 의미 정보를 효과적으로 보존할 수 있다. DePatch 모듈은 플러그 앤 플레이 방식으로 작동하며, 다양한 Transformer 아키텍처에 쉽게 통합되어 엔드투엔드 학습을 가능하게 한다. 이 DePatch 모듈을 포함한 Transformer를 변형 가능한 패치 기반 Transformer(DPT)라 명명하고, 이미지 분류 및 객체 탐지에 대해 광범위한 평가를 수행하였다. 실험 결과, DPT는 ImageNet 분류에서 81.9%의 top-1 정확도를 달성하였으며, MSCOCO 객체 탐지에서는 RetinaNet 기반으로 43.7%의 박스 mAP, Mask R-CNN 기반으로는 44.3%의 mAP를 기록하였다. 코드는 다음 주소에서 공개되어 있다: https://github.com/CASIA-IVA-Lab/DPT.