
摘要
我们提出了一类通用的语言模型,该模型将指代视为一个显式的随机潜在变量。这种架构使得模型可以通过访问外部数据库(例如对话生成和菜谱生成所需)和内部状态(例如共指识别语言模型所需)来创建实体及其属性的提及。这有助于在数据库或话语上下文中可预测位置获取的信息的整合,即使这些指代的目标可能是罕见词汇。我们在三个任务上的实验展示了基于确定性注意力机制的模型变体的效果。
我们提出了一类通用的语言模型,该模型将指代视为一个显式的随机潜在变量。这种架构使得模型可以通过访问外部数据库(例如对话生成和菜谱生成所需)和内部状态(例如共指识别语言模型所需)来创建实体及其属性的提及。这有助于在数据库或话语上下文中可预测位置获取的信息的整合,即使这些指代的目标可能是罕见词汇。我们在三个任务上的实验展示了基于确定性注意力机制的模型变体的效果。