9日前

ETC：Transformerにおける長さおよび構造化入力の符号化

Joshua Ainslie, Santiago Ontanon, Chris Alberti, Vaclav Cvicek, Zachary Fisher, Philip Pham, Anirudh Ravula, Sumit Sanghai, Qifan Wang, Li Yang

論文の詳細を見る

要約

Transformerモデルは、自然言語処理（NLP）の多くのタスクにおいて、最先端の性能を達成している。本論文では、標準的なTransformerアーキテクチャが抱える二つの重要な課題、すなわち入力長のスケーリングおよび構造化入力の符号化に取り組む新しいTransformerアーキテクチャ、拡張Transformer構成（Extended Transformer Construction; ETC）を提案する。長大な入力に対するアテンションのスケーリングを実現するため、グローバルトークンと通常の入力トークンの間に新たなグローバル-ローカルアテンション機構を導入した。また、グローバル-ローカルアテンションを相対的位置符号化と対照的予測符号化（Contrastive Predictive Coding; CPC）の事前学習目的と組み合わせることで、ETCが構造化された入力を効果的に符号化できることを示した。本研究では、長大な入力および／または構造化された入力を必要とする4つの自然言語データセットにおいて、最先端の性能を達成した。