9日前
BP-Transformer:二分分割を用いた長距離コンテキストのモデリング
Zihao Ye, Qipeng Guo, Quan Gan, Xipeng Qiu, Zheng Zhang

要約
Transformerモデルは、多くの自然言語処理タスクにおいて広く成功を収めている。しかし、自己注意機構(self-attention)の二次時間計算量は、長文への応用を制限している。本論文では、二分法(binary partitioning, BP)を用いて多スケールのスパンに対して細かいから粗い方向への注意機構を採用し、BP-Transformer(略称:BPT)を提案する。BPTは、ハイパーパラメータ $k$ を用いて注意の密度を制御する際、$O(k\cdot n\log (n/k))$ の接続数を実現する。これにより、計算量とモデル表現力の間に優れたバランスを達成している。テキスト分類、機械翻訳、言語モデリングに関する一連の実験から、従来の自己注意モデルと比較して、BPTが長文処理において優れた性能を発揮することが示された。本研究のコード、ハイパーパラメータ設定、およびスパース注意機構用CUDAカーネルは、PyTorch環境で公開されている。