18 天前

PhraseTransformer:将局部上下文信息融入序列到序列语义解析中

{Minh Le Nguyen, Vu Tran, Huy Tien Nguyen, Tung Le, Phuong Minh Nguyen}
摘要

语义解析是一项将自然语言语句映射为机器可理解信息表示的挑战性任务。近年来,基于神经机器翻译(NMT)的方法取得了诸多令人瞩目的成果,尤其是Transformer模型。然而,将原始Transformer直接应用于语义解析的一个典型缺陷在于:它未能充分考虑短语在表达句子语义信息中的作用,而短语在构建句子意义方面具有至关重要的作用。为此,我们提出了一种名为PhraseTransformer的新架构,该架构通过学习句子中短语之间的依赖关系,能够实现更精细的语义表示。其核心思想是将长短期记忆(LSTM)机制引入原始Transformer的自注意力(Self-Attention)模块中,以捕捉词语的局部上下文信息。实验结果表明,与原始Transformer相比,所提出的模型在理解句子结构和逻辑表示方面表现更优,同时显著提升了模型对局部上下文的感知能力,且无需依赖外部树结构信息。此外,尽管引入了循环结构,PhraseTransformer的序列操作数量仍保持在O(1)级别,与原始Transformer相当。在Geo和MSParS数据集上,该模型展现出强劲的竞争力;在Atis数据集上,其性能达到基于神经网络方法的最先进水平(SOTA)。为进一步验证模型的泛化能力,我们还在三个机器翻译数据集(IWSLT14德英、IWSLT15越英、WMT14英德)上进行了广泛实验,均取得了显著提升。相关代码已开源,地址为:https://github.com/phuongnm94/PhraseTransformer.git。