2 个月前

学习何时集中或分散注意力:神经机器翻译中的自适应注意力温度

Junyang Lin; Xu Sun; Xuancheng Ren; Muyu Li; Qi Su
学习何时集中或分散注意力:神经机器翻译中的自适应注意力温度
摘要

大多数神经机器翻译(NMT)模型基于带有编码器-解码器框架的序列到序列(Seq2Seq)模型,并配备了注意力机制。然而,传统的注意力机制在每个时间步的解码过程中都使用相同的矩阵,对不同类型的词语(如内容词和功能词)的注意力强度没有进行区分,这存在一定的问题。因此,我们提出了一种新的模型,引入了称为自适应温度控制(Self-Adaptive Control of Temperature, SACT)的机制,通过注意力温度来调节注意力的软硬度。实验结果表明,在中英翻译和英越翻译任务中,我们的模型优于基线模型。分析和案例研究进一步显示,我们的模型能够关注源端上下文中最相关的元素,并生成高质量的翻译。

学习何时集中或分散注意力:神经机器翻译中的自适应注意力温度 | 最新论文 | HyperAI超神经