17일 전
PVT v2: 피라미드 비전 트랜스포머를 활용한 개선된 베이스라인
Wenhai Wang, Enze Xie, Xiang Li, Deng-Ping Fan, Kaitao Song, Ding Liang, Tong Lu, Ping Luo, Ling Shao

초록
최근 Transformer는 컴퓨터 비전 분야에서 긍정적인 진전을 보이고 있다. 본 연구에서는 원래의 피라미드 비전 트랜스포머(Pyramid Vision Transformer, PVT v1)를 개선하기 위해 세 가지 설계를 도입하여 새로운 기준 모델(PVT v2)을 제안한다. 이 세 가지 설계는 (1) 선형 복잡도 어텐션 레이어, (2) 겹치는 패치 임베딩, (3) 컨볼루션 기반 피드포워드 네트워크이다. 이러한 개선을 통해 PVT v2는 PVT v1의 계산 복잡도를 선형 수준으로 감소시키며, 분류, 탐지, 세그멘테이션과 같은 기초 비전 작업에서 뚜렷한 성능 향상을 달성한다. 특히 제안된 PVT v2는 최근의 Swin Transformer와 같은 최신 연구들과 비교해 유사하거나 더 우수한 성능을 보였다. 본 연구가 컴퓨터 비전 분야의 최신 트랜스포머 기반 연구 발전에 기여하기를 기대한다. 코드는 https://github.com/whai362/PVT에서 제공된다.