2달 전

패치 슬림화를 통한 효율적인 비전 트랜스포머

Tang, Yehui ; Han, Kai ; Wang, Yunhe ; Xu, Chang ; Guo, Jianyuan ; Xu, Chao ; Tao, Dacheng
패치 슬림화를 통한 효율적인 비전 트랜스포머
초록

본 논문은 시각 변환기의 효율성 문제를 연구하며, 주어진 네트워크에서 중복 계산을 발굴하여 해결하고자 합니다. 최근의 변환기 아키텍처는 일련의 컴퓨터 비전 작업에서 우수한 성능을 달성하는 데 그 효과성을 입증하였습니다. 그러나 컨벌루션 신경망과 마찬가지로, 시각 변환기의 거대한 계산 비용은 여전히 심각한 문제입니다. 주목할 점은 어텐션 메커니즘이 각 층마다 다른 패치들을 집계한다는 것입니다. 이를 고려하여, 우리는 위에서 아래로의 패러다임으로 무용한 패치들을 제거하는 새로운 패치 슬림화 접근법을 제시합니다. 먼저 마지막 층에서 효과적인 패치들을 식별하고, 이를 이용하여 이전 층들의 패치 선택 과정을 안내합니다. 각 층에 대해 패치가 최종 출력 특징에 미치는 영향을 근사화하며, 영향력이 적은 패치들은 제거됩니다. 벤치마크 데이터셋에서 수행된 실험 결과는 제안된 방법이 시각 변환기의 계산 비용을 크게 줄일 수 있으며, 성능에는 거의 영향을 미치지 않는다는 것을 보여줍니다. 예를 들어, ImageNet 데이터셋에서 ViT-Ti 모델의 FLOPs(Floating Point Operations Per Second)가 45% 이상 감소하였음에도 불구하고, 상위 1위 정확도는 단 0.2%만 하락하였습니다.

패치 슬림화를 통한 효율적인 비전 트랜스포머 | 최신 연구 논문 | HyperAI초신경