
要約
大規模な事前学習済みTransformerモデルは自然言語処理タスクにおいて高い性能を示しているものの、長文の入力処理は依然として大きな課題である。特に、多くの事前学習モデルの最大入力コンテキストを上回る長さの入力を扱う「長文要約」タスクにおいては、その困難さが顕著である。本研究では、広範な実験を通じて、事前学習済みTransformerモデルを長文要約に効率的に適応させるために必要なモデル構造の変更や事前学習戦略について検証した。その結果、グローバルエンコーダトークンを備えたステッガード(段階的)なブロック局所Transformerが、性能と効率のバランスに優れていることが明らかになった。また、長文データに対する追加の事前学習フェーズが、下流の要約タスクにおける性能を顕著に向上させることも確認した。これらの知見をもとに、PEGASUSモデルを拡張した「PEGASUS-X」を提案する。PEGASUS-Xは、最大16Kトークンの長文入力を処理できるよう、追加の長文事前学習を実施したものであり、非常に大きなモデルに匹敵する性能を達成しつつ、追加パラメータ数が少なく、モデル並列化を必要としない点が特徴である。