2 个月前

TagRec:基于层次学习分类法的问题自动标注

Venktesh V; Mukesh Mohania; Vikram Goyal
TagRec:基于层次学习分类法的问题自动标注
摘要

在线教育平台根据层次学习分类法(学科-章节-主题)组织学术问题。自动为新问题标注现有分类法标签,有助于将这些问题归类到不同的层次分类中,从而可以根据章节等维度进行搜索。这一任务可以被表述为一个平面多类分类问题。通常,基于平面分类的方法忽略了层次分类法中的术语与问题之间的语义相关性。一些传统方法还存在类别不平衡的问题,因为它们只考虑叶节点而忽略了层次结构。因此,我们将该问题表述为一个基于相似性的检索任务,在此任务中优化分类法与问题之间的语义相关性。我们证明了该方法能够处理未见过的标签,因此可以在实际环境中用于分类法标注。在该方法中,我们将问题与其对应的答案结合起来以捕捉更多的语义信息,然后将问题-答案对的情境化嵌入与相应的标签(分类法)向量表示对齐。通过微调基于变换器的模型并使用结合了余弦相似性和铰链等级损失的损失函数来实现表示的对齐。损失函数最大化了问题-答案对与正确标签表示之间的相似性,同时最小化了与无关标签的相似性。最后,我们在两个真实世界的数据集上进行了实验。结果显示,所提出的学**习方法在Recall@k指标上比使用多类分类方法和其他最先进方法的学习表示高出6%。我们还展示了该方法在未见过但相关的学习内容(如学习目标)上的性能,而无需重新训练网络。