HyperAIHyperAI

Command Palette

Search for a command to run...

BP-Transformer:二分分割を用いた長距離コンテキストのモデリング

Zihao Ye Qipeng Guo Quan Gan Xipeng Qiu Zheng Zhang

概要

Transformerモデルは、多くの自然言語処理タスクにおいて広く成功を収めている。しかし、自己注意機構(self-attention)の二次時間計算量は、長文への応用を制限している。本論文では、二分法(binary partitioning, BP)を用いて多スケールのスパンに対して細かいから粗い方向への注意機構を採用し、BP-Transformer(略称:BPT)を提案する。BPTは、ハイパーパラメータ kkk を用いて注意の密度を制御する際、O(knlog(n/k))O(k\cdot n\log (n/k))O(knlog(n/k)) の接続数を実現する。これにより、計算量とモデル表現力の間に優れたバランスを達成している。テキスト分類、機械翻訳、言語モデリングに関する一連の実験から、従来の自己注意モデルと比較して、BPTが長文処理において優れた性能を発揮することが示された。本研究のコード、ハイパーパラメータ設定、およびスパース注意機構用CUDAカーネルは、PyTorch環境で公開されている。


AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助
すぐに使える GPU
最適な料金体系

HyperAI Newsletters

最新情報を購読する
北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします
メール配信サービスは MailChimp によって提供されています