11日前

トップダウンおよびボトムアップ推論を用いた長文要約

Bo Pang, Erik Nijkamp, Wojciech Kryściński, Silvio Savarese, Yingbo Zhou, Caiming Xiong
トップダウンおよびボトムアップ推論を用いた長文要約
要約

テキスト要約は、長文ドキュメントを要約しつつ重要な情報を保持することを目的としている。要約モデルの成功の鍵となるのは、元のドキュメント内の単語やトークンの潜在表現を忠実に推論することである。近年の大多数のモデルは、トランスフォーマー・エンコーダーを用いて潜在表現を推論しているが、これは単なるボトムアップ型の推論に依存している。また、自己注意機構(self-attention)に基づく推論モデルは、シーケンス長に対して二次的な計算量の課題を抱えている。本研究では、この二つの課題を克服するため、原理的かつ整合性のある推論フレームワークを提案する。本フレームワークは、ドキュメントに階層的な潜在構造が存在すると仮定しており、上位レベルが粗い時間スケールでの長距離依存関係を捉え、下位のトークンレベルが詳細な情報を保持する。重要な点として、この階層構造により、トークン表現の更新がボトムアップとトップダウンの両方向で行われる。ボトムアップのパスでは、局所的な自己注意機構を用いて効率的な表現推論を実現する。その後、トップダウンの補正を適用することで、トークンが長距離依存関係を捉える能力が向上する。提案するフレームワークの有効性は、物語文、会話文、科学文献、ニュース記事など多様な要約データセット上で実証された。本モデルは、(1)フル自己注意機構を用いたトランスフォーマーと比較して、短文要約において競争力のあるあるいは優れた性能を発揮しつつ、メモリおよび計算効率が向上しており、(2)近年の効率的なトランスフォーマーと比較して、幅広い長文要約ベンチマークにおいて最先端の性能を達成している。さらに、最近のGPT-3ベースのモデルと比較して、パラメータ数は0.27%(464M対175B)にまで削減され、学習データ量も大幅に削減された状態で、一冊の本全体を要約する能力を有していることが示された。これらの結果は、本フレームワークが広範な適用可能性と実用的利点を有していることを示している。

トップダウンおよびボトムアップ推論を用いた長文要約 | 最新論文 | HyperAI超神経