2 个月前

BioSentVec:为生物医学文本创建句子嵌入向量

Qingyu Chen; Yifan Peng; Zhiyong Lu
BioSentVec:为生物医学文本创建句子嵌入向量
摘要

句向量已成为当今自然语言处理(NLP)系统的重要组成部分,尤其是在结合先进的深度学习方法时。尽管在通用领域已有预训练的句编码器可用,但目前尚无针对生物医学文本的预训练句编码器。在这项工作中,我们介绍了BioSentVec:首个开放的句向量集合,该集合使用来自PubMed学术文章和MIMIC-III临床数据库中的超过3000万篇文档进行训练。我们在不同文本类型中的两个句对相似度任务中评估了BioSentVec嵌入的效果。基准测试结果表明,与其他竞争性替代方案相比,BioSentVec嵌入能够更好地捕捉句子语义,并在这两个任务中均达到了最先进的性能。我们期望BioSentVec能够促进生物医学文本挖掘的研究和开发,并补充现有的生物医学词嵌入资源。BioSentVec已公开发布于https://github.com/ncbi-nlp/BioSentVec。