9日前
ETC:Transformerにおける長さおよび構造化入力の符号化
Joshua Ainslie, Santiago Ontanon, Chris Alberti, Vaclav Cvicek, Zachary Fisher, Philip Pham, Anirudh Ravula, Sumit Sanghai, Qifan Wang, Li Yang

要約
Transformerモデルは、自然言語処理(NLP)の多くのタスクにおいて、最先端の性能を達成している。本論文では、標準的なTransformerアーキテクチャが抱える二つの重要な課題、すなわち入力長のスケーリングおよび構造化入力の符号化に取り組む新しいTransformerアーキテクチャ、拡張Transformer構成(Extended Transformer Construction; ETC)を提案する。長大な入力に対するアテンションのスケーリングを実現するため、グローバルトークンと通常の入力トークンの間に新たなグローバル-ローカルアテンション機構を導入した。また、グローバル-ローカルアテンションを相対的位置符号化と対照的予測符号化(Contrastive Predictive Coding; CPC)の事前学習目的と組み合わせることで、ETCが構造化された入力を効果的に符号化できることを示した。本研究では、長大な入力および/または構造化された入力を必要とする4つの自然言語データセットにおいて、最先端の性能を達成した。