피라미드 비전 트랜스포머: 컨볼루션 없이 밀도 높은 예측을 위한 유연한 백본

컨볼루셔널 신경망(CNN)을 백본으로 사용하는 것은 컴퓨터 비전 분야에서 큰 성공을 거두었지만, 본 연구는 복소 연산 없이도 다양한 밀도 높은 예측 작업에 유용한 간단한 백본 네트워크를 탐구한다. 최근 제안된 트랜스포머 모델(ViT 등)이 이미지 분류 작업에 특별히 설계된 것과 달리, 본 연구는 다양한 밀도 높은 예측 작업으로의 확장이 어려운 문제를 극복하기 위해 피라미드 비전 트랜스포머(Pyramid Vision Transformer, PVT)를 제안한다. 기존 기법들과 비교해 PVT는 다음과 같은 장점을 지닌다. (1) 일반적으로 출력 해상도가 낮고 계산 및 메모리 비용이 큰 ViT와 달리, PVT는 이미지의 밀집된 영역을 활용해 높은 출력 해상도를 달성할 수 있으며, 이는 밀도 높은 예측 작업에 있어 매우 중요하다. 또한, 점진적으로 축소되는 피라미드 구조를 통해 큰 특징 맵의 계산량을 감소시킨다. (2) PVT는 CNN과 트랜스포머의 장점을 모두 이어받아, 단순히 CNN 백본을 대체함으로써 다양한 비전 작업에 통합된 백본으로 활용될 수 있다. (3) 광범위한 실험을 통해 PVT의 유효성을 검증하였으며, 객체 탐지, 세그멘테이션(세분 및 인스턴스) 등 다양한 하류 작업에서 성능 향상을 입증하였다. 예를 들어, 파라미터 수가 유사한 조건에서 RetinaNet+PVT는 COCO 데이터셋에서 40.4 AP를 기록하며, RetinaNet+ResNet50(36.3 AP)보다 4.1점의 절대적인 AP 향상을 달성하였다. 본 연구는 PVT가 픽셀 수준의 예측 작업에 있어 유용한 대안적 백본으로 활용되길 기대하며, 향후 연구 발전에 기여할 수 있기를 바란다. 코드는 https://github.com/whai362/PVT 에서 공개되어 있다.