
摘要
本文介绍了我们在SemEval-2022任务12——“数学符号与其描述的关联”中的系统实现,该系统在所有子任务(包括命名实体识别,NER;关系抽取,RE)中均位列排行榜首位。我们的系统是一个基于SciBERT的两阶段流水线模型,用于在科学文献中检测数学符号、其描述文本及其相互关系。系统由两个核心模块构成:1)基于机器阅读理解(MRC)的命名实体识别模型,其中每种实体类型被建模为一个问答问题,实体提及片段通过MRC模型作为答案进行抽取;2)跨度对分类关系抽取模型,将两个实体提及及其类型标记编码为跨度表示,并输入至Softmax分类器以判断其关系类型。此外,我们引入了一种基于规则的符号分词器,以提升符号实体边界的精确识别能力。为进一步优化关系抽取模型,我们还探索了正则化策略与集成学习方法。