
要約
テキスト要約は、与えられたテキストから関連する内容を含む短い要約を生成することを目的としている。イタリア語をはじめとする低リソース言語において、抽象的要約(abstractive summarization)のためのデータが不足していることから、本研究では2つの新しいオリジナルデータセットを提案する。これらは、イタリアのニュースサイトから収集した複数文からなる要約と対応する記事から構成され、またスペイン語の要約データセットを機械翻訳によって得たデータセットを含む。これらの2つのデータセットは、現在このタスクにおいてイタリア語で利用可能な唯一のデータセットである。これらのデータセットの品質を評価するため、T5-baseモデルおよびmBARTモデルを用いて学習を実施した結果、両モデルとも良好な性能が得られた。さらに、自動翻訳によって生成されたデータセット上で学習した同様のモデルと、同じ訓練言語における自動翻訳要約との比較を行ったところ、提案したデータセットから得られたモデルの優位性が明らかになった。