
要約
テキスト要約(Text Summarization, TS)は自然言語処理(NLP)における重要なタスクである。事前学習された言語モデル(Pre-trained Language Models, PLMs)は、TSの性能向上に活用されてきた。しかし、PLMsはラベル付きの学習データの必要性や、長文処理に不向きなアテンション機構という制約を抱えており、特に長文文書への適用において限界がある。このような課題に対応するため、本研究では、要約の抽出型と抽象型の特徴を統合した、無教師学習型のハイブリッドアプローチを提案する。本手法では、文書を走査しながら、その主要なポイントを代表する顕著なテキスト断片(salient textual fragments)を生成する。その後、生成された断片と文書内の各文との類似度をBERTScoreを用いて計算し、最も類似度の高い文を重要文として選定することで、抽出型要約を実現する。本研究では、生命科学および一般科学分野に属する文書を対象として、顕著なテキスト断片の生成と利用が抽出型要約の効果に与える影響を評価した。さらに、異なる生成モデル(関連する質問や文書タイトルを生成するように微調整されたモデル)を用いて、長文と短文の文書における性能を比較した。その結果、大量のラベル付き学習データを必要とせずに、従来の無教師学習手法や最先端の教師あり手法を上回る性能を達成することが示された。