8ヶ月前

概要

科学極端要約（TLDR）は、科学論文の超短い要約を作成することを目的としています。これまでの科学TLDRデータセットの作成試みは、大量の人間による注釈と専門知識が必要であったため、スケールアップに失敗しました。本論文では、引用テキストから科学論文のTLDR要約を自動的に抽出する単純かつ効果的な手法を提案します。提案手法に基づき、人間による注釈なしで新しいベンチマークデータセットCiteSumを作成しました。これは、以前の人間がキュレーションしたデータセットSciTLDRよりも約30倍大きいです。私たちはCiteSumの包括的な分析を行い、そのデータ特性を検討し、強力なベースラインを確立しました。さらに、CiteSumで事前学習されたモデル（CITESと命名）を新たなタスクやドメインに適応させることで、監督が限られている状況での有用性を示しています。科学極端要約において、CITESはSciTLDRに対して微調整を行わずに多くの完全監督方法を上回り、わずか128例のみで最先端の結果を得ています。ニュース極端要約においても、CITESはXSumでベースモデル（CiteSumでの事前学習なし）に対して大幅な改善を達成しており、例えば+7.2 ROUGE-1ゼロショット性能と最先端のファーソット性能を獲得しています。ニュース見出し生成においては、Gigaword上で非監督およびゼロショット方法の中で最良の性能を発揮しています。私たちのデータセットとコードはhttps://github.com/morningmoni/CiteSumで入手できます。

ソースPDF