8 个月前

自然语言处理

自然语言处理

Jiexing Qi; Shuhao Li; Zhixin Guo; Yusheng Huang; Chenghu Zhou; Weinan Zhang; Xinbing Wang; Zhouhan Lin

摘要

现实世界中的数据通常表现出长尾分布，其中少数标签出现频率较高，而大量标签则属于少样本（few-shot）标签。机构名称规范化研究是一个展示这种现象的完美应用案例。全球各地的机构在公开文献中名称变化多样，种类繁多。在这项工作中，我们首先收集了一个大规模的机构名称规范化数据集 LoT-insts1，该数据集包含超过25,000个类别，这些类别的分布自然呈现长尾特征。为了将少样本和零样本学习场景从大量的多样本类别中分离出来，我们构建了测试集，该测试集由四个不同的子集组成：多样本集、中样本集、少样本集以及零样本开放集。此外，我们在数据上复现了若干重要的基线方法，涵盖了从基于搜索的方法到使用预训练BERT模型的神经网络方法。进一步地，我们提出了一种专门预训练的基于BERT的模型，在少样本和零样本测试集上展示了更好的泛化能力。与其他关注长尾现象的数据集相比，我们的数据集比现有最大的长尾数据集多一个数量级的训练数据，并且其分布是自然形成的而非人工合成的。我们认为这为研究这一问题提供了一个重要且不同的场景。据我们所知，这是第一个专注于长尾和开放集合分类问题的自然语言数据集。

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供

8 个月前

自然语言处理

自然语言处理

Jiexing Qi; Shuhao Li; Zhixin Guo; Yusheng Huang; Chenghu Zhou; Weinan Zhang; Xinbing Wang; Zhouhan Lin

摘要

现实世界中的数据通常表现出长尾分布，其中少数标签出现频率较高，而大量标签则属于少样本（few-shot）标签。机构名称规范化研究是一个展示这种现象的完美应用案例。全球各地的机构在公开文献中名称变化多样，种类繁多。在这项工作中，我们首先收集了一个大规模的机构名称规范化数据集 LoT-insts1，该数据集包含超过25,000个类别，这些类别的分布自然呈现长尾特征。为了将少样本和零样本学习场景从大量的多样本类别中分离出来，我们构建了测试集，该测试集由四个不同的子集组成：多样本集、中样本集、少样本集以及零样本开放集。此外，我们在数据上复现了若干重要的基线方法，涵盖了从基于搜索的方法到使用预训练BERT模型的神经网络方法。进一步地，我们提出了一种专门预训练的基于BERT的模型，在少样本和零样本测试集上展示了更好的泛化能力。与其他关注长尾现象的数据集相比，我们的数据集比现有最大的长尾数据集多一个数量级的训练数据，并且其分布是自然形成的而非人工合成的。我们认为这为研究这一问题提供了一个重要且不同的场景。据我们所知，这是第一个专注于长尾和开放集合分类问题的自然语言数据集。

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供