2달 전

비전 트랜스포머에서의 희소성 추적: 엔드투엔드 탐구

Chen, Tianlong ; Cheng, Yu ; Gan, Zhe ; Yuan, Lu ; Zhang, Lei ; Wang, Zhangyang
비전 트랜스포머에서의 희소성 추적: 엔드투엔드 탐구
초록

비전 트랜스포머(Vision Transformers, ViTs)는 최근 폭발적인 인기를 얻고 있지만, 그들의 거대한 모델 크기와 훈련 비용은 여전히 벅차게 느껴집니다. 기존의 훈련 후 가지치기(post-training pruning) 방법은 종종 더 높은 훈련 예산을 초래합니다. 이에 반해, 본 논문은 훈련 메모리 부담과 추론 복잡도를 줄이면서도 달성 가능한 정확도를 저하시키지 않는 것을 목표로 합니다. 우리는 ViTs에서 "시작부터 끝까지" 스파시티(sparsity)를 통합하는 접근법에 대한 최초의 포괄적인 탐색을 수행하였습니다. 구체적으로, 전체 ViTs를 훈련하는 대신 고정된 작은 매개변수 예산을 유지하면서 동적으로 스파시트 서브네트워크(sparse subnetworks)를 추출하고 훈련합니다. 우리의 접근법은 모델 매개변수와 연결성을 전 과정에서 공동으로 최적화하여, 최종 출력으로 하나의 스파시트 네트워크(sparse network)를 생성합니다. 이 접근법은 구조화되지 않은 스파시티(unstructured sparsity)에서 구조화된 스파시티(structured sparsity)로 원활하게 확장되며, 후자는 ViTs 내부의 자기 주의 머리(self-attention heads)의 가지치기 및 성장을 안내하는 것을 고려하여 수행됩니다. 또한, 새로운 학습 가능한 토큰 선택기(learnable token selector)를 플러그인하여 현재 가장 중요한 패치(patch)를 적응적으로 결정함으로써 데이터와 아키텍처 스파시티(data and architecture sparsity)를 공동으로 탐색하여 추가적인 효율성을 얻습니다. ImageNet에서 다양한 ViT 백본(ViT backbones)을 사용한 광범위한 실험 결과가 우리의 제안사항이 크게 감소된 계산 비용과 거의 손상되지 않은 일반화 능력을 얻는다는 것을 입증하였습니다. 특히 놀랍게도, 제안된 스파시트 (공동-)훈련(sparse (co-)training)이 때때로 ViT 정확도를 개선할 수 있으며 이를 저하시키지 않는 것으로 나타났습니다. 이는 스파시티가 유혹적인 "무료 점심(free lunch)"일 수 있음을 시사합니다. 예를 들어, (데이터, 아키텍처)에 대해 (5%, 50%)의 스팍스니티로 가진 DeiT-Small 변형체는 0.28%의 top-1 정확도 개선을 보였으며, 동시에 49.32%의 FLOPs(Floating Point Operations per Second)와 4.40%의 실행 시간 절약을 누렸습니다. 우리의 코드는 https://github.com/VITA-Group/SViTE에서 확인할 수 있습니다.

비전 트랜스포머에서의 희소성 추적: 엔드투엔드 탐구 | 최신 연구 논문 | HyperAI초신경