17日前

マルチブランチアテンティブトランスフォーマー

Yang Fan, Shufang Xie, Yingce Xia, Lijun Wu, Tao Qin, Xiang-Yang Li, Tie-Yan Liu
マルチブランチアテンティブトランスフォーマー
要約

マルチブランチ構造は、コンピュータビジョンタスクにおける成功の鍵となる要素の一つであるが、自然言語処理、特にシーケンス学習タスクにおいては十分に検討されていない。本研究では、アテンション層を複数のブランチの平均として定義し、各ブランチを独立したマルチヘッドアテンション層として構成する、シンプルでありながら有効なTransformerの変種である「マルチブランチアテンションTransformer(MAT)」を提案する。訓練の正則化のために、2つの手法を活用する:ドロップブランチ(訓練中にランダムに個々のブランチを無効化する手法)とプロキシ初期化(事前学習済みTransformerモデルを用いて複数のブランチを初期化する手法)。機械翻訳、コード生成、自然言語理解の実験により、このような単純なTransformerの変種が顕著な性能向上をもたらすことが示された。本研究のコードは、\url{https://github.com/HA-Transformer} にて公開されている。

マルチブランチアテンティブトランスフォーマー | 最新論文 | HyperAI超神経