11日前

Big Bird: より長いシーケンスのためのTransformers

Manzil Zaheer, Guru Guruganesh, Avinava Dubey, Joshua Ainslie, Chris Alberti, Santiago Ontanon, Philip Pham, Anirudh Ravula, Qifan Wang, Li Yang, Amr Ahmed

論文の詳細を見る

要約

BERTをはじめとするTransformerベースのモデルは、自然言語処理（NLP）分野における最も成功した深層学習モデルの一つである。しかしながら、その中心的な制約の一つは、完全なアテンション機構に起因する、シーケンス長に対する二次的な依存性（主にメモリ面で顕著）である。この問題を解決するため、本研究では、この二次的依存性を線形に削減するスパースアテンション機構「BigBird」を提案する。我々は、BigBirdがシーケンス関数の普遍近似器であり、かつチューリング完全であることを示す。これにより、二次的かつ完全なアテンションモデルが持つこれらの性質を保持することが可能となる。理論的分析の過程で、CL（[CLS]）トークンなど、定数個（O(1)）のグローバルトークンが、スパースアテンション機構の一部として全シーケンスに注目する利点の一部が明らかになった。提案するスパースアテンション機構により、同程度のハードウェア上で従来の最大可能長の8倍に達する長さのシーケンスを処理できるようになった。この長距離コンテキストの扱いが可能なことにより、BigBirdは質問応答や要約といったさまざまなNLPタスクにおいて顕著な性能向上を達成した。さらに、本研究ではゲノムデータへの新たな応用も提案している。