17일 전

비전 인식을 위한 버블넥 트랜스포머

Aravind Srinivas, Tsung-Yi Lin, Niki Parmar, Jonathon Shlens, Pieter Abbeel, Ashish Vaswani
비전 인식을 위한 버블넥 트랜스포머
초록

우리는 이미지 분류, 객체 탐지, 인스턴스 세그멘테이션을 포함한 다수의 컴퓨터 비전 작업에 적용 가능한 개념적으로 단순하면서도 강력한 백본 아키텍처인 BoTNet을 제안한다. ResNet의 마지막 세 개의 보틀넥 블록에서 공간적 컨볼루션을 전역 자기주의(self-attention)로 단순히 교체함으로써, 다른 어떠한 변경 없이도 인스턴스 세그멘테이션과 객체 탐지에서 기존 베이스라인을 크게 초월하면서도 파라미터 수를 감소시키고 지연 시간에 거의 영향을 주지 않는다. BoTNet의 설계 과정을 통해 우리는 자기주의를 갖춘 ResNet 보틀넥 블록이 트랜스포머 블록으로 해석될 수 있음을 제시한다. 특별한 추가 기능 없이도 BoTNet은 Mask R-CNN 프레임워크를 사용하여 COCO 인스턴스 세그멘테이션 벤치마크에서 44.4%의 Mask AP와 49.7%의 Box AP를 달성하며, COCO 검증 세트에서 평가된 이전 최고의 단일 모델 및 단일 스케일 결과인 ResNeSt를 초과한다. 마지막으로, BoTNet 설계를 이미지 분류 작업에 간단히 적용한 사례를 제시하며, TPU-v3 하드웨어에서 기존에 널리 사용되는 EfficientNet 모델보다 최대 1.64배 빠른 계산 시간을 유지하면서 ImageNet 벤치마크에서 84.7%의 top-1 정확도를 달성하는 모델을 구현하였다. 본 연구에서 제안하는 단순하면서도 효과적인 접근 방식이 향후 시각 분야의 자기주의 모델 연구에 강력한 기준이 되기를 기대한다.