
摘要
受通用语言理解评估基准(General Language Understanding Evaluation, GLUE)成功的启发,我们引入了生物医学语言理解评估(Biomedical Language Understanding Evaluation, BLUE)基准,以促进生物医学领域预训练语言表示的研究发展。该基准包括五个任务,涵盖十个数据集,涉及生物医学和临床文本的不同规模和难度。我们还基于BERT和ELMo评估了几种基线模型,并发现使用PubMed摘要和MIMIC-III临床笔记预训练的BERT模型取得了最佳结果。我们已将数据集、预训练模型及代码公开发布在https://github.com/ncbi-nlp/BLUE_Benchmark。