2 个月前

用于问答的动态共注意力网络

Caiming Xiong; Victor Zhong; Richard Socher
用于问答的动态共注意力网络
摘要

已提出多种深度学习模型用于问答任务。然而,由于这些模型的单次处理特性,它们无法从对应于错误答案的局部最大值中恢复。为了解决这一问题,我们引入了动态协同注意网络(Dynamic Coattention Network, DCN)用于问答任务。DCN首先融合问题和文档的相互依赖表示,以便关注两者中的相关部分。然后,一个动态指针解码器会遍历潜在的答案区间。这一迭代过程使得模型能够从初始的对应于错误答案的局部最大值中恢复。在斯坦福问答数据集上,单一的DCN模型将先前的最佳F1分数从71.0%提升至75.9%,而DCN集成模型则达到了80.4%的F1分数。