15日前

HowSumm:WikiHow記事から抽出された複数文書要約データセット

Odellia Boni, Guy Feigenblat, Guy Lev, Michal Shmueli-Scheuer, Benjamin Sznajder, David Konopnicki
HowSumm:WikiHow記事から抽出された複数文書要約データセット
要約

本稿では、クエリ指向型多文書要約(qMDS)タスク向けに新たな大規模データセット「HowSumm」を提案する。このデータセットは、複数の情報源から実行可能な手順を生成するというユースケースを想定しており、既存の多文書要約(MDS)データセットでカバーされていないユースケースを対象としている。このユースケースは教育的・産業的場面において広く応用可能な可能性を有している。HowSummは、wikiHowの記事およびその参照元資料を対象とし、既存の手作業で作成されたqMDSデータセットの統計情報を活用した自動手法によって構築された。本稿ではデータセットの構築プロセスを詳述し、他の要約コーパスと異なる特徴について議論する。本データセット上で実施された自動評価および人間評価により、抽出型および要約生成型の要約モデルの性能にはさらなる改善の余地があることが明らかになった。