9일 전
BP-Transformer: 이진 분할을 통한 장거리 컨텍스트 모델링
Zihao Ye, Qipeng Guo, Quan Gan, Xipeng Qiu, Zheng Zhang

초록
Transformer 모델은 자연어 처리 작업에서 널리 성공을 거두고 있다. 그러나 자기 주의(self-attention)의 제곱 복잡도는 긴 텍스트에 대한 적용을 제한한다. 본 논문에서는 이진 분할(binary partitioning, BP)을 통해 다중 스케일 구간에 대해 세밀한 수준에서 거친 수준으로의 주의 메커니즘을 도입함으로써, BP-Transformer(BPT)를 제안한다. BPT는 주의 밀도를 조절하는 하이퍼파라미터 (k)에 따라 (O(k \cdot n \log(n/k)))의 연결을 가지며, 계산 복잡도와 모델 용량 사이에 우수한 균형을 제공한다. 텍스트 분류, 기계 번역 및 언어 모델링에 대한 일련의 실험을 통해 BPT가 이전의 자기 주의 모델들에 비해 긴 텍스트 처리에서 뛰어난 성능을 보임을 확인하였다. 본 연구의 코드, 하이퍼파라미터 및 희소 주의를 위한 CUDA 커널은 PyTorch를 통해 공개되어 있다.