IEPile 是由浙江大学研发的大规模高质量的双语(中英)信息抽取 (IE) 指令微调数据集,涵盖了命名实体识别 (NER) 、关系抽取 (RE) 和事件抽取 (EE) 三大核心子任务。该数据集包含约 200 万条指令样本,总计约 3.2 亿 Token,涵盖了通用、医学、金融等多个领域。
研究团队通过精心整合 26 个英文和 7 个中文 IE 数据集,并采用提出的「基于 schema 的轮询指令构造方法」,包括构建难负样本字典和轮询式指令生成,确保了数据集的高质量。 IEPile 的构建显著提升了大型模型在信息抽取任务,尤其是零样本泛化能力上的表现,为信息抽取研究提供了宝贵的资源。
做种 0
下载中 1
已完成 130
总下载 375