11日前

アレクサンドリアからの響き:多言語書籍要約のための大規模リソース

Alessandro Scirè, Simone Conia, Simone Ciciliano, Roberto Navigli
アレクサンドリアからの響き:多言語書籍要約のための大規模リソース
要約

近年、テキスト要約に関する研究は主にニュース領域に注目が集まっており、その文書は通常短く、明確なレイアウト特徴を持つことが一般的である。一方、全書要約(full-book summarization)は、現在のリソースが英語のみに限定されており、規模も限られていることから、さらなる課題を伴う。こうした制約を克服するため、本研究では「アレクサンドリアの響き(Echoes from Alexandria)」、略して「Echoes」と呼ぶ、多言語書籍要約向けの大規模リソースを提示する。Echoesは以下の3つの新規データセットを特徴とする:i)Echo-Wiki:多言語書籍要約用、ii)Echo-XSum:極めて圧縮度の高い多言語書籍要約用、iii)Echo-FairySum:抽出型書籍要約用。本研究の知見によれば、数千冊の書籍と要約を含むEchoesは、5言語・25の言語ペアをカバーするという点で、多言語対応かつ規模最大のリソースであり、同分野における初の試みである。さらに、抽出型から抽象型への段階的アプローチを採用した新たなベースラインを提案し、生成された要約の実験結果および手動による分析を通じて、純粋な抽象型アプローチよりも本書要約に適していると主張する。本リソースおよびソフトウェアは、GitHub(https://github.com/Babelscape/echoes-from-alexandria)にて公開しており、多言語書籍要約分野における革新的な研究の促進を目的としている。

アレクサンドリアからの響き:多言語書籍要約のための大規模リソース | 最新論文 | HyperAI超神経