2달 전
계층적 풀링을 사용한 확장 가능한 비전 트랜스포머
Pan, Zizheng ; Zhuang, Bohan ; Liu, Jing ; He, Haoyu ; Cai, Jianfei

초록
최근 제안된 순수 주의 메커니즘을 사용하는 시각 이미지 트랜스포머(ViT)는 이미지 분류와 같은 이미지 인식 작업에서 유망한 성능을 달성하였습니다. 그러나 현재 ViT 모델의 관행은 추론 과정에서 전체 길이의 패치 시퀀스를 유지하는 것이며, 이는 중복되며 계층적 표현이 부족합니다. 이를 해결하기 위해, 우리는 시퀀스 길이를 줄이고 따라서 계산 비용을 감소시키기 위해 시각 토큰을 점진적으로 풀링하는 계층적 시각 트랜스포머(HVT)를 제안합니다. 이 방법은 CNNs에서 피처 맵 다운샘플링과 유사합니다. 이렇게 하면 시퀀스 길이가 줄어들기 때문에 깊이/폭/해상도/패치 크기 등의 차원을 확장하여 모델 용량을 증가시킬 수 있으며, 추가적인 계산 복잡성을 도입하지 않습니다. 또한, 우리는 경험적으로 평균 풀링된 시각 토큰이 단일 클래스 토큰보다 더 구별적인 정보를 포함하고 있다는 것을 발견하였습니다. 우리의 HVT의 개선된 확장성을 입증하기 위해, 우리는 이미지 분류 작업에 대해 광범위한 실험을 수행하였습니다. 유사한 FLOPs로, 우리의 HVT는 ImageNet 및 CIFAR-100 데이터셋에서 경쟁력 있는 기준 모델들을 능가하였습니다. 코드는 https://github.com/MonashAI/HVT 에서 제공됩니다.