要約
自然言語処理(NLP)において、正確な意味を保持しつつ要約されたテキストドキュメントを作成することは、極めて複雑な課題である。抽象的テキスト要約(ATS)とは、元の文から得られる事実を抽出し、コンパクトな表現に統合するプロセスであり、テキストの内容と意図を維持することが求められる。大量のテキストを手動で要約することは、人間にとって困難かつ時間のかかる作業である。そのため、テキスト要約はNLP分野における注目すべき研究テーマとなっている。本研究では、自己注意機構(Self-Attention Mechanism)を備えたTransformer技術を活用したATSモデル「T2SAM」を提案する。この自己注意機構により、テキスト内の照応問題(coreference)を効果的に解決し、システムがテキストをより正確に理解できるようになっている。提案モデルT2SAMは、InshortsニュースデータセットとDUC-2004共有タスクデータセットを統合して訓練された。評価にはROUGE指標が用いられ、既存の最先端モデルと比較して優れた性能を示した。訓練過程において、T2SAMは30エポックを経て、初期の訓練損失10.3058から最小値1.8220まで低下し、InshortsおよびDUC-2004の両方のニュースデータセットで48.50%のF1スコアを達成した。