7 个月前

摘要

在设计在线问答系统时，需要平衡有效性和效率之间的基本权衡。有效性来源于复杂的功能，如抽取式机器阅读理解（MRC），而效率则通过改进初步检索组件（如候选文档选择和段落排序）来获得。鉴于现实世界中多文档MRC场景的复杂性，很难在一个端到端的系统中同时优化这两者。为了解决这一问题，我们开发了一种新颖的深度级联学习模型，该模型逐步从候选文本的文档级和段落级排序演进到利用机器阅读理解进行更精确的答案提取。具体而言，首先基于效率考虑使用简单函数过滤掉无关的文档和段落。然后，我们在剩余的文本上联合训练三个模块以更好地追踪答案：文档提取、段落提取和答案提取。实验结果表明，所提出的方法在两个大规模多文档基准数据集（即TriviaQA和DuReader）上的表现优于以往的最先进方法。此外，我们的在线系统可以在不到50毫秒的时间内稳定地处理数百万次的日请求量，适用于典型场景。

源 PDF