
摘要
自然语言处理涵盖多种任务,涉及词元级或句子级的理解。本文提出一个简洁的洞察:大多数任务均可统一表示为一种通用的抽取格式。为此,我们提出一个原型模型,并开发了一个开源且可扩展的工具包,名为 OpenUE,用于支持各类信息抽取任务。OpenUE 允许开发者训练定制化模型以从文本中提取信息,并为研究人员提供快速的模型验证能力。此外,OpenUE 提供了多种功能模块,确保系统具备充分的模块化与可扩展性。除工具包外,我们还部署了一个在线演示系统,通过 RESTful API 支持无需训练与部署即可实现实时信息抽取。该在线系统可适用于多种任务,包括关系三元组抽取、槽位(&)意图识别、事件抽取等。我们已将源代码、数据集及预训练模型公开发布,以促进后续研究,相关资源可访问 http://github.com/zjunlp/openue 获取。