17일 전

경량 트랜스포머: 롱-숏 레인지 어텐션

Zhanghao Wu, Zhijian Liu, Ji Lin, Yujun Lin, Song Han
경량 트랜스포머: 롱-숏 레인지 어텐션
초록

트랜스포머는 기계 번역, 질의 응답 등 자연어 처리 분야에서 널리 사용되고 있지만, 높은 성능을 달성하기 위해 막대한 계산량을 요구함으로써 하드웨어 자원과 배터리 용량이 제한된 모바일 애플리케이션에는 적합하지 않다. 본 논문에서는 엣지 디바이스에서 모바일 자연어 처리 애플리케이션을 효과적으로 배포할 수 있도록 지원하는 효율적인 모바일 NLP 아키텍처인 Lite Transformer를 제안한다. 주요 구성 요소는 장단거리 주의(Long-Short Range Attention, LSRA): 한 그룹의 어텐션 헤드는 컨볼루션을 통해 국소적 문맥을 모델링하고, 다른 그룹은 어텐션을 통해 장거리 관계를 모델링하는 방식으로 전문화된 구조이다. 이러한 전문화는 기존 트랜스포머보다 기계 번역, 추상적 요약, 언어 모델링 등 세 가지 주요 언어 처리 과제에서 일관된 성능 향상을 가져온다. 제한된 자원 조건(500M/100M MACs) 하에서 Lite Transformer는 WMT'14 영어-프랑스어 번역 작업에서 각각 1.2/1.7의 BLEU 점수 향상을 기록하며 기존 트랜스포머를 상회한다. 기본 트랜스포머 모델의 계산량을 2.5배 감소시키면서도 BLEU 점수는 0.3포인트만 감소시켰다. 또한, 가지치기와 양자화 기법과 결합하여 Lite Transformer의 모델 크기를 18.2배 더 작게 압축할 수 있었다. 언어 모델링 과제에서는 약 500M MACs에서 트랜스포머보다 1.8포인트 낮은 퍼플렉서티를 달성하였다. 특히, 250개 이상의 GPU 연간에 달하는 비용이 드는 아키텍처 탐색 과정 없이도, AutoML 기반의 Evolved Transformer보다 모바일 NLP 환경에서 0.5포인트 높은 BLEU 점수를 기록하며 우수한 성능을 보였다. 코드는 https://github.com/mit-han-lab/lite-transformer 에 공개되어 있다.

경량 트랜스포머: 롱-숏 레인지 어텐션 | 최신 연구 논문 | HyperAI초신경