11 天前
基于银级一致子树提升神经RST解析模型
{Masaaki Nagata, Manabu Okumura, Hidetaka Kamigaito, Tsutomu Hirao, Naoki Kobayashi}

摘要
以往大多数修辞结构理论(Rhetorical Structure Theory, RST)解析方法基于监督学习,例如神经网络模型,这类方法依赖于规模足够大且质量较高的标注语料库。然而,作为英语RST解析任务基准的RST话语树库(RST-DT),由于RST树结构标注成本高昂,其规模相对较小。标注数据的匮乏导致模型在关系分类任务上表现不佳,尤其在关系标签预测方面性能受限。为此,本文提出一种通过利用“银级数据”(silver data,即自动标注的数据)来提升神经网络RST解析模型性能的方法。我们采用当前最先进的RST解析器,从无标注语料中构建大规模银级数据;为确保银级数据的质量,从多个RST解析器生成的文档树中提取一致的子树结构作为高质量银级样本。随后,使用这些银级数据对神经RST解析器进行预训练,并在RST-DT上进行微调。实验结果表明,所提方法在核性(Nuclearity)和关系(Relation)分类任务上的微平均F1分数分别达到75.0和63.2,取得了当前最佳性能。尤其值得注意的是,关系分类的F1分数相较此前最先进方法提升了3.0个百分点,展现出显著的性能增益。