11 天前

BillSum:美国立法自动摘要语料库

Anastassia Kornilova, Vlad Eidelman
BillSum:美国立法自动摘要语料库
摘要

自动摘要方法已在新闻和科技文章等多种领域得到广泛研究。然而,尽管美国国会及各州政府每年发布数以万计的法案,立法文本尚未被纳入此类任务的研究范畴。本文提出BillSum,这是首个面向美国国会法案及加利福尼亚州州立法案的摘要数据集(https://github.com/FiscalNote/BillSum)。我们详细阐述了该数据集相较于其他领域更具挑战性的特性。随后,我们对结合神经句子表示与传统上下文特征的抽取式摘要方法进行了基准测试。最后,我们证明了基于国会法案训练的模型可有效用于加利福尼亚州法案的摘要生成,表明本数据集所开发的方法具备跨州迁移能力,即使在缺乏人工撰写摘要的情况下亦可实现有效应用。

BillSum:美国立法自动摘要语料库 | 最新论文 | HyperAI超神经