HyperAIHyperAI

Command Palette

Search for a command to run...

ETC:Transformerにおける長さおよび構造化入力の符号化

Joshua Ainslie Santiago Ontanon Chris Alberti Vaclav Cvicek Zachary Fisher Philip Pham Anirudh Ravula Sumit Sanghai Qifan Wang Li Yang

概要

Transformerモデルは、自然言語処理(NLP)の多くのタスクにおいて、最先端の性能を達成している。本論文では、標準的なTransformerアーキテクチャが抱える二つの重要な課題、すなわち入力長のスケーリングおよび構造化入力の符号化に取り組む新しいTransformerアーキテクチャ、拡張Transformer構成(Extended Transformer Construction; ETC)を提案する。長大な入力に対するアテンションのスケーリングを実現するため、グローバルトークンと通常の入力トークンの間に新たなグローバル-ローカルアテンション機構を導入した。また、グローバル-ローカルアテンションを相対的位置符号化と対照的予測符号化(Contrastive Predictive Coding; CPC)の事前学習目的と組み合わせることで、ETCが構造化された入力を効果的に符号化できることを示した。本研究では、長大な入力および/または構造化された入力を必要とする4つの自然言語データセットにおいて、最先端の性能を達成した。


AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助
すぐに使える GPU
最適な料金体系

HyperAI Newsletters

最新情報を購読する
北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします
メール配信サービスは MailChimp によって提供されています