HyperAI

摘要

以往大多数修辞结构理论（Rhetorical Structure Theory, RST）解析方法基于监督学习，例如神经网络模型，这类方法依赖于规模足够大且质量较高的标注语料库。然而，作为英语RST解析任务基准的RST话语树库（RST-DT），由于RST树结构标注成本高昂，其规模相对较小。标注数据的匮乏导致模型在关系分类任务上表现不佳，尤其在关系标签预测方面性能受限。为此，本文提出一种通过利用“银级数据”（silver data，即自动标注的数据）来提升神经网络RST解析模型性能的方法。我们采用当前最先进的RST解析器，从无标注语料中构建大规模银级数据；为确保银级数据的质量，从多个RST解析器生成的文档树中提取一致的子树结构作为高质量银级样本。随后，使用这些银级数据对神经RST解析器进行预训练，并在RST-DT上进行微调。实验结果表明，所提方法在核性（Nuclearity）和关系（Relation）分类任务上的微平均F1分数分别达到75.0和63.2，取得了当前最佳性能。尤其值得注意的是，关系分类的F1分数相较此前最先进方法提升了3.0个百分点，展现出显著的性能增益。

基准测试

基准	方法	指标
discourse-parsing-on-rst-dt	Top-down Span-based Parser with Silver Agreement Subtrees	RST-Parseval (Full): 61.8 RST-Parseval (Nuclearity): 74.7 RST-Parseval (Relation): 62.5 RST-Parseval (Span): 86.8
discourse-parsing-on-rst-dt	Top-down Span-based Parser with Silver Agreement Subtrees (ensemble)	RST-Parseval (Full): 62.6 RST-Parseval (Nuclearity): 75.0 RST-Parseval (Relation): 63.2 RST-Parseval (Span): 87.1

基于银级一致子树提升神经RST解析模型

{Masaaki Nagata Manabu Okumura Hidetaka Kamigaito Tsutomu Hirao Naoki Kobayashi}

摘要

基准测试

用 AI 构建 AI

Hyper Newsletters

Command Palette

基于银级一致子树提升神经RST解析模型

{Masaaki Nagata Manabu Okumura Hidetaka Kamigaito Tsutomu Hirao Naoki Kobayashi}

摘要

基准测试

用 AI 构建 AI

Hyper Newsletters