
摘要
从临床笔记中预测医疗代码是当前医疗系统中每个医疗服务提供机构的实际且必要的需求。自动化注释将大大节省目前由人工编码员耗费的大量时间和精力。然而,最大的挑战是从非结构化的自由文本临床笔记中直接识别出数千个高维代码中的适当医疗代码。在过去的三年里,借助卷积神经网络(CNN)和长短期记忆(LSTM)网络,针对MIMIC-III全标签住院临床笔记数据集最具挑战性的基准测试,已经取得了显著进展。这一进展引发了关于自动化机器学习(ML)系统与人工编码员工作表现之间差距的基本问题。我们评估了人工编码员在同一抽样测试集上的基线表现,并介绍了我们的“读取、注意和编码”(RAC)模型,用于学习医疗代码分配映射。通过将卷积嵌入与自注意力模块及代码标题引导的注意力模块连接起来,并结合基于句子排列的数据增强方法和随机权重平均训练,RAC建立了新的最先进水平(SOTA),大幅超越了当前最佳的宏F1指标18.7%,并超过了人工编码员的基线水平。这一新里程碑标志着机器实现完全自主医疗编码(AMC)迈向了一个有意义的步骤,在医疗代码预测方面达到了与人工编码员相当的表现。