11 天前

文本生成中的动量校准

Xingxing Zhang, Yiran Liu, Xun Wang, Pengcheng He, Yang Yu, Si-Qing Chen, Wayne Xiong, Furu Wei
文本生成中的动量校准
摘要

在大多数文本生成任务中,输入与输出均可转化为两个标记序列,因此可借助序列到序列学习框架(如Transformer)进行建模。这类模型通常通过最大化输出文本序列的似然性进行训练,训练过程中假设输入序列及所有真实前序标记均已知;然而在推理阶段,模型会面临暴露偏差(exposure bias)问题——即在束搜索(beam search)过程中,模型仅能依赖自身先前预测的标记,而非真实的前序标记。本文提出一种名为MoCa({\bf Mo}mentum {\bf Ca}libration)的文本生成方法。MoCa是一种在线方法,通过结合束搜索与动量移动平均生成器,动态生成缓慢演化但保持一致的样本。MoCa进一步学习将这些样本的模型得分与其实际质量对齐。在四个文本生成数据集(即CNN/DailyMail、XSum、SAMSum和Gigaword)上的实验表明,MoCa在采用原始微调策略的基础上,始终能够提升强预训练Transformer模型的性能,并在CNN/DailyMail与SAMSum数据集上取得了当前最优(state-of-the-art)的结果。

文本生成中的动量校准 | 最新论文 | HyperAI超神经