Command Palette
Search for a command to run...
ETC:Transformerにおける長さおよび構造化入力の符号化
ETC:Transformerにおける長さおよび構造化入力の符号化
Joshua Ainslie Santiago Ontanon Chris Alberti Vaclav Cvicek Zachary Fisher Philip Pham Anirudh Ravula Sumit Sanghai Qifan Wang Li Yang
概要
Transformerモデルは、自然言語処理(NLP)の多くのタスクにおいて、最先端の性能を達成している。本論文では、標準的なTransformerアーキテクチャが抱える二つの重要な課題、すなわち入力長のスケーリングおよび構造化入力の符号化に取り組む新しいTransformerアーキテクチャ、拡張Transformer構成(Extended Transformer Construction; ETC)を提案する。長大な入力に対するアテンションのスケーリングを実現するため、グローバルトークンと通常の入力トークンの間に新たなグローバル-ローカルアテンション機構を導入した。また、グローバル-ローカルアテンションを相対的位置符号化と対照的予測符号化(Contrastive Predictive Coding; CPC)の事前学習目的と組み合わせることで、ETCが構造化された入力を効果的に符号化できることを示した。本研究では、長大な入力および/または構造化された入力を必要とする4つの自然言語データセットにおいて、最先端の性能を達成した。