18 天前
Saama Research 在 MEDIQA 2019 上的成果:基于注意力可视化技术的预训练 BioBERT 在医学自然语言推理中的应用
{Suriyadeepan Ramamoorthy, Soham Chatterjee, Malaikannan Sankarasubbu, Kamal raj Kanakarajan, Vaidheeswaran Archana}

摘要
自然语言推理(Natural Language Inference, NLI)是指识别两个句子之间蕴含(entailment)、矛盾(contradiction)或中立(neutrality)关系的任务。MedNLI 是面向临床领域的生物医学 NLI 数据集。本文探讨了基于双向编码器表示的 Transformer(Bidirectional Encoder Representations from Transformers, BERT)模型在解决 MedNLI 任务中的应用。所提出的模型在 PubMed Central(PMC)和 PubMed 数据集上进行预训练,并在 MIMIC-III v1.4 数据集上进行微调,在 MedNLI 任务上取得了当前最优的性能,准确率达到 83.45%;同时在 MEDIQA 挑战赛中也取得了 78.5% 的准确率。作者利用可视化工具 bertviz 对在 MedNLI 上训练后 BERT 模型所生成的注意力模式进行了分析,揭示了模型在处理医学文本时的内部工作机制。