17일 전

HRFormer: 밀도 예측을 위한 고해상도 트랜스포머

Yuhui Yuan, Rao Fu, Lang Huang, Weihong Lin, Chao Zhang, Xilin Chen, Jingdong Wang
HRFormer: 밀도 예측을 위한 고해상도 트랜스포머
초록

우리는 밀집 예측 작업을 위한 고해상도 표현을 학습하는 고해상도 트랜스포머(HRFormer)를 제안한다. 기존의 비전 트랜스포머는 저해상도 표현을 생성하며 메모리 및 계산 비용이 높은 반면, HRFormer은 고해상도 표현을 학습함으로써 이를 극복한다. 우리는 고해상도 컨볼루션 네트워크(HRNet)에서 도입된 다중 해상도 병렬 설계와, 작은 겹치지 않는 이미지 창(window) 내에서 자기주목(self-attention)을 수행하는 국소 창 기반 자기주목 기법을 활용하여 메모리 및 계산 효율성을 향상시켰다. 또한, 분리된 이미지 창 간의 정보 교환을 위해 FFN(Feed-Forward Network)에 컨볼루션을 도입하였다. 제안된 HRFormer이 인간 자세 추정 및 세그멘테이션 작업에서 효과적임을 입증하였으며, 예를 들어 COCO 자세 추정에서 HRFormer은 파라미터 수를 50% 줄이고 연산량(FLOPs)을 30% 감소시킨 상태에서 Swin 트랜스포머보다 1.3 AP 높은 성능을 달성하였다. 코드는 다음 링크에서 제공된다: https://github.com/HRNet/HRFormer.