17일 전

SparseSwin: 희소 전환기 블록을 갖춘 Swin Transformer

Krisna Pinasthika, Blessius Sheldo Putra Laksono, Riyandi Banovbi Putera Irsal, Syifa Hukma Shabiyya, Novanto Yudistira

초록

컴퓨터 비전 분야의 연구 발전으로 인해 트랜스포머 아키텍처는 컴퓨터 비전 작업에서 최신 기술(SOTA)로 자리 잡았다. 그러나 트랜스포머 아키텍처의 주요 단점 중 하나는 파라미터 수가 매우 많아지며, 이는 알고리즘의 복잡성과 비효율성을 초래할 수 있다는 점이다. 본 논문은 이러한 문제를 해결하기 위해 파라미터 수를 줄이고, 트랜스포머의 효율성을 높이는 것을 목표로 한다. 이를 위해 희소 토큰 컨버터(sparse token converter)를 추가한 수정된 트랜스포머 블록인 '스파스 트랜스포머(SparTa) 블록'을 제안한다. 이 블록은 사용되는 토큰 수를 줄이는 데 기여한다. 제안한 SparTa 블록을 Swin-T 아키텍처 내부에 통합하여, Swin의 입력을 다운샘플링하고 초기 계산 대상이 되는 토큰 수를 줄이는 능력을 활용한다. 제안하는 SparseSwin 모델은 ImageNet100, CIFAR10, CIFAR100 데이터셋에서 각각 86.96%, 97.43%, 85.35%의 정확도를 기록하며, 다른 최신 기술 모델들을 능가하는 성능을 보였다. 파라미터 수가 적음에도 불구하고, 이러한 결과는 희소 토큰 컨버터를 활용해 토큰 수를 제한한 트랜스포머 아키텍처가 트랜스포머의 활용을 최적화하고 성능을 향상시킬 수 있는 잠재력을 보여준다.