
摘要
语义类型化(Semantic typing)旨在将文本上下文中的特定词元(tokens)或词元片段分类到语义类别中,例如关系类型、实体类型和事件类型。所推断出的语义类别标签能够有意义地揭示机器对文本组成部分的理解方式。本文提出UniST——一种统一的语义类型化框架,通过将输入内容与标签共同投影到一个联合语义嵌入空间,从而捕捉标签的语义信息。为将不同的词汇型与关系型语义类型化任务统一为一个通用任务,UniST引入任务描述,并将其与输入内容联合编码,使得模型能够在不引入特定任务结构的前提下,灵活适应多种任务。UniST通过优化边际排序损失(margin ranking loss),使输入与标签之间的语义相关性能够通过其嵌入表示的相似性得以体现。实验结果表明,UniST在三项语义类型化任务——实体类型化、关系分类与事件类型化——上均取得了优异性能。同时,UniST能够有效迁移标签的语义知识,在识别罕见或未见类型时显著提升模型的泛化能力。此外,多种语义类型化任务可在该统一框架下联合训练,形成一个紧凑的多任务模型,其性能可与专用的单任务模型相媲美,且在跨任务迁移方面表现更优。