
要約
Transformerに基づく事前学習済み言語モデル(LM)は、自然言語理解の分野で広く用いられているが、物語や科学論文、長文ドキュメントなど長文シーケンスへの適用は、計算量が二次関数的に増大するため困難である。近年、多数の効率的なTransformerの変種が提案されてきたが、それらは通常、高コストなスクラッチからの再学習を必要とするカスタム実装に依存している。本研究では、長文処理のためのシンプルな手法であるSLED(SLiding-Encoder and Decoder)を提案する。SLEDは、検証済みの短文用事前学習済みLMを再利用・活用するアプローチであり、入力を重複するチャンクに分割し、それぞれを短文用LMエンコーダで符号化した後、事前学習済みデコーダを用いてチャンク間の情報を統合(デコーダ内統合)する。制御実験を通じて、SLEDが長文理解において実用的な戦略であることを示した。さらに、自然言語理解タスクの多様な7つのデータセットを含むベンチマーク「SCROLLS」上で本手法を評価した結果、SLEDは最大50倍も大きな専用モデルと同等の性能を発揮し、専用かつ高コストな事前学習ステップを必要としない点で優位性を示した。