2 个月前
一种连续松弛的束搜索方法用于神经序列模型的端到端训练
Kartik Goyal; Graham Neubig; Chris Dyer; Taylor Berg-Kirkpatrick

摘要
波束搜索是神经序列模型在测试时解码的一种理想选择,因为它有可能避免较简单的贪婪方法所犯的搜索错误。然而,这些模型的典型交叉熵训练过程并未直接考虑最终解码方法的行为。因此,对于通过交叉熵训练的模型,波束解码有时会比贪婪解码在测试性能上有所下降。为了训练能够更有效地利用波束搜索的模型,我们提出了一种新的训练方法,该方法专注于评估波束搜索输出的最终损失度量(例如汉明损失)。尽管这一“直接损失”目标定义明确,但其本身是非连续的,因此难以优化。因此,在我们的方法中,我们通过引入一种新颖的波束搜索解码过程的连续近似来形成一个次可微的目标函数。实验结果表明,优化这一新的训练目标在两个序列任务(命名实体识别和CCG超标签)上相比交叉熵训练的贪婪解码和波束解码基线方法取得了显著更好的效果。