9日前

BP-Transformer：二分分割を用いた長距離コンテキストのモデリング

Zihao Ye, Qipeng Guo, Quan Gan, Xipeng Qiu, Zheng Zhang

要約

Transformerモデルは、多くの自然言語処理タスクにおいて広く成功を収めている。しかし、自己注意機構（self-attention）の二次時間計算量は、長文への応用を制限している。本論文では、二分法（binary partitioning, BP）を用いて多スケールのスパンに対して細かいから粗い方向への注意機構を採用し、BP-Transformer（略称：BPT）を提案する。BPTは、ハイパーパラメータ $k$ を用いて注意の密度を制御する際、$O(k\cdot n\log (n/k))$ の接続数を実現する。これにより、計算量とモデル表現力の間に優れたバランスを達成している。テキスト分類、機械翻訳、言語モデリングに関する一連の実験から、従来の自己注意モデルと比較して、BPTが長文処理において優れた性能を発揮することが示された。本研究のコード、ハイパーパラメータ設定、およびスパース注意機構用CUDAカーネルは、PyTorch環境で公開されている。