9일 전

롱-숏 트랜스포머: 언어 및 비전을 위한 효율적인 트랜스포머

Chen Zhu, Wei Ping, Chaowei Xiao, Mohammad Shoeybi, Tom Goldstein, Anima Anandkumar, Bryan Catanzaro
롱-숏 트랜스포머: 언어 및 비전을 위한 효율적인 트랜스포머
초록

Transformers는 언어 및 비전 분야에서 성공을 거두었지만, 긴 시퀀스(예: 긴 문서 또는 고해상도 이미지)로 확장할 경우 자체주의(self-attention) 메커니즘이 입력 시퀀스 길이에 대해 이차적(time 및 메모리 복잡도)이기 때문에 비용이 지나치게 높아져 실현 가능성이 낮다. 본 논문에서는 언어 및 비전 작업 모두에 대해 선형 복잡도를 갖는 긴 시퀀스 모델링을 위한 효율적인 자체주의 메커니즘인 Long-Short Transformer(Transformer-LS)를 제안한다. Transformer-LS는 먼 거리 간의 상관관계를 모델링하기 위해 동적 투영(dynamic projection)을 활용한 새로운 장거리 주의(long-range attention)와 세부적인 국부적 상관관계를 포착하기 위한 단기 주의(short-term attention)를 통합한다. 두 주의 메커니즘 간의 스케일 불일치를 보완하기 위해 이중 정규화(dual normalization) 전략을 제안한다. Transformer-LS는 추가적인 복잡성 없이 자기회귀(auto-regressive) 및 양방향(bidirectional) 모델에 모두 적용 가능하다. 제안한 방법은 Long Range Arena 벤치마크, 자기회귀 언어 모델링, ImageNet 분류 등 언어 및 비전 분야의 다양한 작업에서 최신 기술을 능가한다. 예를 들어, enwik8에서 기존 방법보다 파라미터 수를 절반으로 줄였음에도 불구하고 0.97의 테스트 BPC를 달성했으며, 동일 하드웨어 환경에서 전체 주의(full-attention) 버전보다 3배 긴 시퀀스를 처리할 수 있고, 더 빠른 속도를 보였다. ImageNet에서는 고해상도 이미지에 대해 더욱 확장 가능하면서도 최신 기술 수준의 성능을 달성했다. 예를 들어, 224×224 ImageNet-1K 데이터셋에서 단독으로 훈련된 규모 55.8M의 중간 크기 모델이 Top-1 정확도 84.1%를 기록했다. 소스 코드 및 모델은 https://github.com/NVIDIA/transformer-ls 에 공개되었다.