11日前
SATS:科学文書の簡潔性を意識したテキスト要約
{Naif Radi Aljohani, Asim Karim, Saeed-Ul Hassan, Matthew Shardlow, Faisal Kamiran, Farooq Zaman}

要約
学術論文の要約を簡素化することは、科学的発見を広範な読者に伝えるための一般的な手法として広く用いられている。テキスト要約は長文文書を短縮することを目的とするのに対し、簡素化は文書の複雑さを低減することを目的としている。これらのタスクを統合的に達成するためには、長文を短縮し、同時に簡素化する機械学習手法の開発が求められている。本研究では、将来のn-gram予測に基づく新たな「簡素化意識型テキスト要約モデル(Simplification Aware Text Summarization model, SATS)」を提案する。提唱するSATSモデルは、テキスト要約モデルであるProphetNetを拡張したものであり、簡素化タスクに適した単語頻度辞書を用いて目的関数を強化している。本研究では、最近公開された5,400組の科学論文ペアから構成されるテキスト要約および簡素化コーパスを用いてSATSの性能を評価した。自動評価指標(ROUGE、SARI、CSS1)に基づく結果から、SATSは2つのデータセットにおいて、簡素化、要約、および統合的な簡素化・要約タスクにおいて、最先端モデルを上回る性能を示した。さらに、SATSモデルが生成した要約について人間による評価も実施した。8名のアノテーターが100件の要約について文法的正確性、一貫性、整合性、流暢性、および簡素さの5つの観点から評価を行った。各評価項目における平均評価値は1~5のスケールで4.0~4.5の範囲にあり、5が最高、1が最低を意味する。