HyperAIHyperAI

Command Palette

Search for a command to run...

マルチブランチアテンティブトランスフォーマー

Yang Fan Shufang Xie Yingce Xia Lijun Wu Tao Qin Xiang-Yang Li Tie-Yan Liu

概要

マルチブランチ構造は、コンピュータビジョンタスクにおける成功の鍵となる要素の一つであるが、自然言語処理、特にシーケンス学習タスクにおいては十分に検討されていない。本研究では、アテンション層を複数のブランチの平均として定義し、各ブランチを独立したマルチヘッドアテンション層として構成する、シンプルでありながら有効なTransformerの変種である「マルチブランチアテンションTransformer(MAT)」を提案する。訓練の正則化のために、2つの手法を活用する:ドロップブランチ(訓練中にランダムに個々のブランチを無効化する手法)とプロキシ初期化(事前学習済みTransformerモデルを用いて複数のブランチを初期化する手法)。機械翻訳、コード生成、自然言語理解の実験により、このような単純なTransformerの変種が顕著な性能向上をもたらすことが示された。本研究のコードは、\url{https://github.com/HA-Transformer} にて公開されている。


AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助
すぐに使える GPU
最適な料金体系

HyperAI Newsletters

最新情報を購読する
北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします
メール配信サービスは MailChimp によって提供されています