HyperAIHyperAI

Command Palette

Search for a command to run...

効率的なTransformerの拡張による長文入力要約の検討

Jason Phang Yao Zhao Peter J. Liu

概要

大規模な事前学習済みTransformerモデルは自然言語処理タスクにおいて高い性能を示しているものの、長文の入力処理は依然として大きな課題である。特に、多くの事前学習モデルの最大入力コンテキストを上回る長さの入力を扱う「長文要約」タスクにおいては、その困難さが顕著である。本研究では、広範な実験を通じて、事前学習済みTransformerモデルを長文要約に効率的に適応させるために必要なモデル構造の変更や事前学習戦略について検証した。その結果、グローバルエンコーダトークンを備えたステッガード(段階的)なブロック局所Transformerが、性能と効率のバランスに優れていることが明らかになった。また、長文データに対する追加の事前学習フェーズが、下流の要約タスクにおける性能を顕著に向上させることも確認した。これらの知見をもとに、PEGASUSモデルを拡張した「PEGASUS-X」を提案する。PEGASUS-Xは、最大16Kトークンの長文入力を処理できるよう、追加の長文事前学習を実施したものであり、非常に大きなモデルに匹敵する性能を達成しつつ、追加パラメータ数が少なく、モデル並列化を必要としない点が特徴である。


AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助
すぐに使える GPU
最適な料金体系

HyperAI Newsletters

最新情報を購読する
北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします
メール配信サービスは MailChimp によって提供されています