2 个月前
野生环境中的文本分类:一个大规模长尾名称规范化数据集
Jiexing Qi; Shuhao Li; Zhixin Guo; Yusheng Huang; Chenghu Zhou; Weinan Zhang; Xinbing Wang; Zhouhan Lin

摘要
现实世界中的数据通常表现出长尾分布,其中少数标签出现频率较高,而大量标签则属于少样本(few-shot)标签。机构名称规范化研究是一个展示这种现象的完美应用案例。全球各地的机构在公开文献中名称变化多样,种类繁多。在这项工作中,我们首先收集了一个大规模的机构名称规范化数据集 LoT-insts1,该数据集包含超过25,000个类别,这些类别的分布自然呈现长尾特征。为了将少样本和零样本学习场景从大量的多样本类别中分离出来,我们构建了测试集,该测试集由四个不同的子集组成:多样本集、中样本集、少样本集以及零样本开放集。此外,我们在数据上复现了若干重要的基线方法,涵盖了从基于搜索的方法到使用预训练BERT模型的神经网络方法。进一步地,我们提出了一种专门预训练的基于BERT的模型,在少样本和零样本测试集上展示了更好的泛化能力。与其他关注长尾现象的数据集相比,我们的数据集比现有最大的长尾数据集多一个数量级的训练数据,并且其分布是自然形成的而非人工合成的。我们认为这为研究这一问题提供了一个重要且不同的场景。据我们所知,这是第一个专注于长尾和开放集合分类问题的自然语言数据集。