
摘要
为了弥合机器阅读理解(MRC)模型与人类之间的差距,这一差距主要体现在对数据的渴求和对噪声的鲁棒性上,本文探讨了如何将MRC模型的神经网络与人类的一般知识相结合。一方面,我们提出了一种数据增强方法,该方法利用WordNet从每个给定的篇章-问题对中提取词汇间的语义联系作为一般知识。另一方面,我们提出了一种端到端的MRC模型,命名为知识辅助阅读器(Knowledge Aided Reader, KAR),该模型显式地利用上述提取的一般知识来辅助其注意力机制。基于数据增强方法,KAR在性能上与最先进的MRC模型相当,并且在对噪声的鲁棒性方面显著优于这些模型。当仅有部分训练样本(20%-80%)可用时,KAR仍然大幅超越最先进的MRC模型,并且依然具有合理的抗噪能力。