11 天前

高效且可解释的神经网络模型用于实体追踪

Shubham Toshniwal
高效且可解释的神经网络模型用于实体追踪
摘要

要使一个自然语言模型能够理解一部小说,例如《魔戒》,需要具备哪些能力?其中关键的两点是:(a)在文本中识别并记录新出现的角色(实体)及其属性;(b)在后续文本中识别对先前引入角色的指代,并据此更新其属性。这种实体追踪(entity tracking)问题对于语言理解至关重要,因而对自然语言处理(NLP)领域的诸多下游应用(如问答系统、文本摘要等)具有广泛价值。在本论文中,我们聚焦于推动实体追踪模型应用的两个核心问题:(i)将实体追踪模型扩展至长文档(如整部小说)的场景;(ii)将实体追踪能力整合进语言模型之中。近年来,将语言技术应用于长文档已引起广泛关注,但计算资源的限制仍是当前方法扩展的显著瓶颈。本文主张,可通过以下方式开发计算高效的实体追踪模型:一是利用预训练语言模型生成丰富且维度固定的向量表示来表征实体;二是利用实体在文本中短暂出现(ephemeral)的特性,降低计算开销。此外,我们进一步主张将实体追踪功能内嵌于语言模型之中,原因在于:(i)鉴于预训练语言模型在当前NLP应用中已广泛使用,这种整合可显著拓展实体追踪技术的应用范围;(ii)在实际部署中更具可行性——相较于集成一个独立的实体追踪模块,替换或更新一个预训练语言模型要容易得多。

高效且可解释的神经网络模型用于实体追踪 | 最新论文 | HyperAI超神经