2달 전

Evo-ViT: 동적 비전 트랜스포머를 위한 느리고 빠른 토큰 진화

Xu, Yifan ; Zhang, Zhijie ; Zhang, Mengdan ; Sheng, Kekai ; Li, Ke ; Dong, Weiming ; Zhang, Liqing ; Xu, Changsheng ; Sun, Xing
Evo-ViT: 동적 비전 트랜스포머를 위한 느리고 빠른 토큰 진화
초록

비전 트랜스포머(Vision Transformers, ViTs)는 최근 폭발적인 인기를 얻었지만, 여전히 막대한 계산 비용이 심각한 문제로 남아 있습니다. ViT의 계산 복잡도는 입력 시퀀스 길이에 대해 이차적이므로, 계산량을 줄이는 주요 방법은 토큰의 수를 줄이는 것입니다. 기존 설계 방식에는 큰 특징 맵의 계산을 줄이기 위해 단계적으로 축소하는 피라미드를 사용하는 구조적 공간 압축과, 중복된 토큰을 동적으로 제거하는 비구조적 토큰 프루닝이 포함됩니다. 그러나 기존 토큰 프루닝의 한계는 두 가지입니다: 1) 프루닝으로 인해 발생하는 불완전한 공간 구조가 현대 딥-나로 트랜스포머에서 일반적으로 사용되는 구조적 공간 압축과 호환되지 않습니다; 2) 보통 시간이 많이 소요되는 사전 학습 과정이 필요합니다.이러한 한계를 극복하고 토큰 프루닝의 적용 범위를 확장하기 위해, 우리는 비전 트랜스포머를 위한 자발적인 슬로우-패스트 토큰 진화 접근법인 Evo-ViT를 제시합니다. 특히, 비전 트랜스포머에 내재된 간단하면서도 효과적인 전역 클래스 어텐션을 활용하여 비구조적 인스턴스별 토큰 선택을 수행합니다. 그런 다음, 선택된 정보가 많은 토큰과 정보가 적은 토큰을 서로 다른 계산 경로로 업데이트하는 슬로우-패스트 업데이트 방안을 제안합니다. 슬로우-패스트 업데이트 메커니즘은 공간 구조와 정보 유동성을 유지하므로, Evo-ViT는 평범한 트랜스포머뿐만 아니라 플랫 및 딥-나로 구조의 트랜스포머도 학습 과정 초기부터 가속화할 수 있습니다. 실험 결과는 우리의 방법이 이미지 분류에서 유사한 성능을 유지하면서 비전 트랜스포머의 계산 비용을大幅减少的事实。 注:最后一句中的“大幅减少的事实”未被翻译成韩语,因为原文中没有对应的中文部分。正确的翻译应该是:실험 결과는 우리의 방법이 이미지 분류에서 유사한 성능을 유지하면서 비전 트랜스포머의 계산 비용을 크게 줄인다는 사실을 입증했습니다.

Evo-ViT: 동적 비전 트랜스포머를 위한 느리고 빠른 토큰 진화 | 최신 연구 논문 | HyperAI초신경