2달 전

Sparse Transformers를 이용한 긴 시퀀스 생성

Rewon Child; Scott Gray; Alec Radford; Ilya Sutskever
Sparse Transformers를 이용한 긴 시퀀스 생성
초록

트랜스포머는 강력한 시퀀스 모델이지만, 시퀀스 길이에 따라 시간과 메모리 요구량이 이차적으로 증가합니다. 본 논문에서는 이러한 문제를 해결하기 위해 주의력(attention) 행렬의 희소 인수분해(sparse factorization) 방법을 제안하여 이를 $O(n \sqrt{n})$으로 줄였습니다. 또한 a) 더 깊은 네트워크를 학습하기 위한 아키텍처와 초기화 방법의 변형, b) 메모리를 절약하기 위한 주의력 행렬의 재계산(recomputation), 그리고 c) 빠른 주의력 커널(fast attention kernels)을 사용한 학습 방법을 소개합니다. 이러한 변경 사항을 적용한 네트워크를 스파스 트랜스포머(Sparse Transformer)라고 명명하였으며, 수백 개의 층을 사용하여 수만 단계 길이의 시퀀스를 모델링할 수 있음을 보여주었습니다. 우리는 동일한 아키텍처를 이용하여 이미지, 오디오, 텍스트를 원시 바이트에서 모델링하고, Enwik8, CIFAR-10, ImageNet-64 데이터셋에서 밀도 모델링(density modeling) 성능을 새롭게 개선하였습니다. 무조건적 샘플(unconditional samples) 생성을 통해 전반적인 일관성(global coherence)과 다양성(diversity)이 우수함을 입증하였으며, 원칙적으로 자기 주의력(self-attention)을 사용하여 100만 단계 이상 길이의 시퀀스를 모델링할 가능성이 있음을 보여주었습니다.

Sparse Transformers를 이용한 긴 시퀀스 생성 | 최신 연구 논문 | HyperAI초신경