11 天前
中文对话语音中省略代词恢复与对话篇章解析的联合模型
Jingxuan Yang, Kerui Xu, Jun Xu, Si Li, Sheng Gao, Jun Guo, Nianwen Xue, Ji-Rong Wen

摘要
本文提出了一种神经网络模型,用于联合完成汉语对话语音中的省略代词恢复(Dropped Pronoun Recovery, DPR)与对话话语结构解析(Conversational Discourse Parsing, CDP)。我们证明了DPR与CDP之间具有紧密关联,联合建模能够同时提升两项任务的性能。我们将该模型命名为DiscProReco。首先,模型利用有向图卷积网络(Directed Graph Convolutional Network, GCN)对对话中每句话的词元(token)进行编码。随后,将每句话内各词元的状态聚合,生成对应句子的单一状态表示。这些句子状态被输入到一个双仿射分类器(biaffine classifier)中,用于构建对话话语图结构。接着,引入第二个(多关系型)GCN对句子状态进行进一步处理,生成增强话语关系的句子表示,并将其与原始词元状态在句子层面进行融合,作为省略代词恢复层的输入。该联合模型在我们新标注的、融合了两种信息的结构解析增强型省略代词恢复数据集(Structure Parsing-enhanced Dropped Pronoun Recovery, SPDPR)上进行训练与评估。实验结果表明,DiscProReco在SPDPR数据集及其他基准测试上,均显著优于当前两项任务的最先进方法。