9日前

Longformer:長文ドキュメント用Transformer

Iz Beltagy, Matthew E. Peters, Arman Cohan
Longformer:長文ドキュメント用Transformer
要約

Transformerベースのモデルは、自己注意(self-attention)演算がシーケンス長に対して二次的にスケーリングするため、長いシーケンスの処理が困難である。この制限を克服するため、本研究ではシーケンス長に対して線形にスケーリングする注意機構を備えたLongformerを提案する。これにより、数千トークン以上に及ぶ文書の処理が容易になる。Longformerの注意機構は、従来の自己注意機構の即時置換(drop-in replacement)として設計されており、局所的なウィンドウ注意と、タスクに応じたグローバル注意を組み合わせた構造となっている。先行研究における長シーケンスTransformerのアプローチに倣い、Longformerを文字レベルの言語モデル化タスクで評価した結果、text8およびenwik8において最先端(SOTA)の性能を達成した。また、多くの先行研究とは異なり、Longformerを事前学習した上で、さまざまな下流タスクにおいて微調整(fine-tuning)を行った。その結果、長文文書処理タスクにおいてRoBERTaを一貫して上回り、WikiHopおよびTriviaQAにおいても新たな最先端性能を達成した。さらに、長文文書に対する生成的シーケンス・トゥ・シーケンスタスクをサポートするため、Longformerの変種としてLongformer-Encoder-Decoder(LED)を導入し、arXiv要約データセットにおける有効性を実証した。