8 个月前

自然语言处理

自然语言处理

Veysel Kocaman; David Talby

摘要

命名实体识别（NER）是一项广泛适用的自然语言处理任务，是问答系统、主题建模、信息检索等领域的基础构建模块。在医疗领域，NER 通过从临床笔记和报告中提取有意义的信息片段，为下游任务如断言状态检测、实体解析、关系抽取和去标识化提供支持，从而发挥关键作用。我们基于 Apache Spark 重新实现了 Bi-LSTM-CNN-Char 深度学习架构，提出了一种单一可训练的 NER 模型，在未使用像 BERT 这样的重型上下文嵌入的情况下，在七个公开的生物医学基准测试中取得了新的最先进结果。这包括将 BC4CHEMD 的性能提升至 93.72%（提高了 4.1%），Species800 提升至 80.91%（提高了 4.6%），以及 JNLPBA 提升至 81.29%（提高了 5.2%）。此外，该模型作为开源 Spark NLP 库的一部分，提供了一个生产级别的代码库；可以在任何 Spark 集群上进行扩展以用于训练和推理；支持 GPU 和多种流行编程语言的库，如 Python、R、Scala 和 Java；并且可以通过无需修改代码的方式扩展以支持其他人类语言。

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供

8 个月前

自然语言处理

自然语言处理

Veysel Kocaman; David Talby

摘要

命名实体识别（NER）是一项广泛适用的自然语言处理任务，是问答系统、主题建模、信息检索等领域的基础构建模块。在医疗领域，NER 通过从临床笔记和报告中提取有意义的信息片段，为下游任务如断言状态检测、实体解析、关系抽取和去标识化提供支持，从而发挥关键作用。我们基于 Apache Spark 重新实现了 Bi-LSTM-CNN-Char 深度学习架构，提出了一种单一可训练的 NER 模型，在未使用像 BERT 这样的重型上下文嵌入的情况下，在七个公开的生物医学基准测试中取得了新的最先进结果。这包括将 BC4CHEMD 的性能提升至 93.72%（提高了 4.1%），Species800 提升至 80.91%（提高了 4.6%），以及 JNLPBA 提升至 81.29%（提高了 5.2%）。此外，该模型作为开源 Spark NLP 库的一部分，提供了一个生产级别的代码库；可以在任何 Spark 集群上进行扩展以用于训练和推理；支持 GPU 和多种流行编程语言的库，如 Python、R、Scala 和 Java；并且可以通过无需修改代码的方式扩展以支持其他人类语言。

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供