6 个月前

摘要

在现有文献中，抽象语义表示（Abstract Meaning Representation, AMR）解析研究受到人工标注数据集规模的严重限制，而该数据集的大小对于构建高性能AMR解析器至关重要。为缓解这一数据规模的制约，预训练模型在AMR解析任务中日益受到关注。然而，以往的预训练模型（如BERT）多为通用目的设计，可能难以在AMR解析这一特定任务上达到理想效果。本文聚焦于序列到序列（seq2seq）式的AMR解析，提出一种seq2seq预训练方法，通过在三个相关任务——机器翻译、句法解析以及AMR解析本身——上以单一方式和联合方式构建预训练模型。此外，本文将传统的微调方法扩展为一种多任务学习微调策略，在优化AMR解析性能的同时，努力保留预训练模型的原有响应能力。在两个英文基准数据集上的大量实验结果表明，无论是单一预训练还是联合预训练模型，均显著提升了性能（例如，在AMR 2.0数据集上从71.5提升至80.2），达到了当前最优水平。这一成果尤为鼓舞人心，因为我们在未使用复杂模型的前提下，仅通过seq2seq架构即实现了这一突破。相关代码与模型已开源，地址为：https://github.com/xdqkid/S2S-AMR-Parser。

源 PDF