
摘要
许多问答(QA)任务仅提供较弱的监督信号,用以指导答案的生成方式。例如,TriviaQA 的答案是可以在支持文档中多次提及的实体,而 DROP 任务的答案则需通过从参考文本中的数字推导出多种不同方程来计算。本文提出,可将此类任务转化为离散隐变量学习问题,其中预先构建一个针对特定任务的、包含所有可能“解”的集合(如不同的实体提及或方程),且该集合中包含唯一正确选项。我们进一步提出一种硬 EM(Hard EM)学习方法,该方法在每次更新时基于最可能的解计算梯度。尽管该方法结构简单,但在六个 QA 任务上显著优于以往方法,取得了 2% 至 10% 的绝对性能提升,并在其中五个任务上达到了当前最优水平。我们通过详尽的定性分析表明,采用硬更新而非最大化边缘似然,是取得优异结果的关键——这一机制促使模型聚焦于寻找唯一正确的答案。