HyperAIHyperAI

Command Palette

Search for a command to run...

Big Bird: より長いシーケンスのためのTransformers

概要

BERTをはじめとするTransformerベースのモデルは、自然言語処理(NLP)分野における最も成功した深層学習モデルの一つである。しかしながら、その中心的な制約の一つは、完全なアテンション機構に起因する、シーケンス長に対する二次的な依存性(主にメモリ面で顕著)である。この問題を解決するため、本研究では、この二次的依存性を線形に削減するスパースアテンション機構「BigBird」を提案する。我々は、BigBirdがシーケンス関数の普遍近似器であり、かつチューリング完全であることを示す。これにより、二次的かつ完全なアテンションモデルが持つこれらの性質を保持することが可能となる。理論的分析の過程で、CL([CLS])トークンなど、定数個(O(1))のグローバルトークンが、スパースアテンション機構の一部として全シーケンスに注目する利点の一部が明らかになった。提案するスパースアテンション機構により、同程度のハードウェア上で従来の最大可能長の8倍に達する長さのシーケンスを処理できるようになった。この長距離コンテキストの扱いが可能なことにより、BigBirdは質問応答や要約といったさまざまなNLPタスクにおいて顕著な性能向上を達成した。さらに、本研究ではゲノムデータへの新たな応用も提案している。


AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助
すぐに使える GPU
最適な料金体系

HyperAI Newsletters

最新情報を購読する
北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします
メール配信サービスは MailChimp によって提供されています