17일 전
HRFormer: 밀도 예측을 위한 고해상도 트랜스포머
Yuhui Yuan, Rao Fu, Lang Huang, Weihong Lin, Chao Zhang, Xilin Chen, Jingdong Wang

초록
우리는 밀집 예측 작업을 위한 고해상도 표현을 학습하는 고해상도 트랜스포머(HRFormer)를 제안한다. 기존의 비전 트랜스포머는 저해상도 표현을 생성하며 메모리 및 계산 비용이 높은 반면, HRFormer은 고해상도 표현을 학습함으로써 이를 극복한다. 우리는 고해상도 컨볼루션 네트워크(HRNet)에서 도입된 다중 해상도 병렬 설계와, 작은 겹치지 않는 이미지 창(window) 내에서 자기주목(self-attention)을 수행하는 국소 창 기반 자기주목 기법을 활용하여 메모리 및 계산 효율성을 향상시켰다. 또한, 분리된 이미지 창 간의 정보 교환을 위해 FFN(Feed-Forward Network)에 컨볼루션을 도입하였다. 제안된 HRFormer이 인간 자세 추정 및 세그멘테이션 작업에서 효과적임을 입증하였으며, 예를 들어 COCO 자세 추정에서 HRFormer은 파라미터 수를 50% 줄이고 연산량(FLOPs)을 30% 감소시킨 상태에서 Swin 트랜스포머보다 1.3 AP 높은 성능을 달성하였다. 코드는 다음 링크에서 제공된다: https://github.com/HRNet/HRFormer.