要約
インターネット上に膨大な情報が氾濫する現代において、手動で関連情報を抽出・収集することは極めて困難かつ時間のかかる作業である。そのため、主題が類似または関連する複数の文書から重要な情報を自動的に抽出するための文書要約ツールの開発が不可欠である。複数文書要約技術は、重複を最小限に抑えつつ、複数の文書から重要かつ関連性の高いコンテンツを効果的に抽出できる。本研究では、教師なし抽出型アプローチに基づく複数文書テキスト要約システムを提案する。この提案モデルは、T5事前学習済みTransformerモデルとK-Meansクラスタリング手法という2つの学習枠組みを統合したものである。実験は、標準的なニュース記事コーパスであるDocument Understanding Conference(DUC2004)を用いて実施した。提案手法の性能評価にはROUGE指標を採用した。その結果、従来の教師なし最先端手法と比較して、本モデルが顕著な性能向上を示すことが検証された。