谷歌进军皮肤科,秒杀执业护士,比肩专科专家

皮肤病是最常见的疾病之一,但专业医生短缺、医疗资源分布不均等,让患者常常求助于全科医生,因此也容易造成误诊、漏诊的现象。谷歌研究人员研发出的深度学习系统,能够检测出常见的皮肤病,准确率与专业皮肤科医生相当,而且远超一部分初级护理医生和护士。

皮肤问题是全球最常见的疾病之一,仅次于感冒,疲劳和头痛。

实际上,全球估计有 19 亿人都在某些特定时间会患上皮肤病。仅在美国,去诊所中就诊的患者中,就有高达 37% 的人至少有一种皮肤问题。但是,这些患者中,有一半以上都是由非皮肤科医生诊治的。

带状疱疹、牛皮癣、痤疮、脚癣、疣、白癜风等
各类皮肤疾病困扰着很多人

由于全球皮肤科医生的短缺,患者不得不去找全科医生,但全科医生在确定病情方面,往往不如专科医生准确。

鉴于此, Google 的研究人员研究出一种人工智能系统,该系统能够发现初级护理中最常见的皮肤病

在其发表的论文《A deep learning system for differential diagnosis of skin diseases》(《一种用于皮肤疾病的鉴别诊断的深度学习系统》,论文地址:https://arxiv.org/pdf/1909.05382.pdf)及其博客中,研究人员表示,当呈现有关患者病例的图像和元数据时,系统可以对 26 种皮肤状况实现准确鉴别诊断,并且声称这与美国具备资格认证的皮肤科医生具有同等水平。

AI 新晋皮肤科医生,准确率超过专业医生

Google 软件工程师 Yuan Liu,和 Google Health 技术计划经理 Peggy Bui 博士表示:「我们开发了深度学习系统(DLS),以解决初级护理中最常见的皮肤问题。这项研究凸显了 DLS 潜在的潜力,它能够增强那些没经过额外专业培训的全科医生的诊断能力。」

AI 系统架构的示意图,输入皮肤照片、性别、年龄等元数据
深度学习系统分析后,给出诊断参考诊断结果

正如他们所解释的那样,皮肤科医生对任何皮肤问题,都不会只给出一种诊断结果,而是列出可能的诊断(差异诊断)的排序列表,再通过后续的检查,影像学,程序和咨询等来系统地缩小范围。Google 研究人员所研发的 AI 系统也是如此。

该系统处理的内容包括一张或多张皮肤异常的临床图像,以及多达 45 种的元数据(如,病史的自我报告成分:如年龄,性别和症状)。针对每种情况,都使用 Inception-v4 神经网络体系结构处理了多个图像,并与特征转换后的元数据结合使用,以用于分类层。

研究小组表示,该模型使用来自两个州的 17 家初级保健诊所 17777 例未识别病例,对模型进行了评估。他们将语料库分为两部分,并使用 2010 年至 2017 年之间的部分记录来训练 AI 系统,2017 年至 2018 年的部分则用来进行评估。在训练过程中,该模型利用了 40 多位皮肤科医生提供的 5 万多种鉴别诊断

为了测试该系统的诊断准确性,研究人员汇总了三名美国认证皮肤科医生的诊断结果,将其与严格的参考标准进行了比较。

通过对 3750 个病例的汇总,得出了 ground truth(地面实况)标签。将 AI 系统对皮肤问题排名与该皮肤科医生得出的鉴别诊断结果比较,第一项和前三项诊断预测分别达到了 71% 和 93% 的准确率

DLS 的表现与三类临床医生对比,AI 系统
与皮肤科医生表现相当,甚至优于医生

此外,在验证数据集的部分,将该系统与三类临床医生(皮肤科医生,初级保健医生和护士)进行比较时(由于临床医生提供的典型差异诊断最多只能包含三个诊断,因此他们只将 DLS 的前三个预测与临床医生进行了比较)。

结果显示,该系统的前三项预测表明其诊断准确率为 90%,或与皮肤科医生(75%)相当,并且「远远高于」初级保健医生(60%)和执业护士(55%)

DLS 训练过程中,元数据与图像都是十分重要的训练元素
皮肤问题诊断,AI 系统无偏见

由于皮肤病也与皮肤类型有极大的相关性,皮肤本身的视觉评估对于诊断至关重要。因此,最后为了评估对皮肤类型的潜在偏见,团队基于 Fitzpatrick 皮肤分型,测试了 AI 系统的性能。该皮肤分型的范围包括 I 型(「苍白,经常灼伤,永不晒黑」)到 VI 型(「最深棕色,永不晒黑」)。

病例原图 (左);以绿色突出显示 DLS 需要识别的重要区域 (右)
中间图像为组合图像,指示系统集中对脱发区域进行诊断而非针对前额皮肤

他们集中研究了至少占数据 5% 的皮肤类型 Fitzpatrick II 型-IV 型的皮肤上,发现在这些类别上,DLS 的准确性相近,前 1 项诊断的精度在 69% 到 72% 之间,前 3 项的精度在 91% 到 94% 之间

研究人员将这套系统的整体准确性,归功于训练语料库中元数据的存在,并表示,研究结果表明,他们的方法可能「帮助提示临床医生考虑可能的因素」,这些可能性因素并不是他们最初进行鉴别诊断的依据。

但是,他们还指出,他们的训练语料库仅取自一家远程皮肤病学服务机构。某些 Fitzpatrick 皮肤分型在其数据集中过于罕见,无法进行有意义的训练或分析;并且由于缺乏可用的数据样本,他们的数据集无法准确检测出某些皮肤状况,例如黑色素瘤。

Liu 和 Bui 写道:「我们认为,在培训和验证中,加入更多经活检证实的皮肤癌病例,可以解决这些局限性。」

技术助力,拥有健康皮肤不是梦 

在我国,皮肤科医生总数不到 3 万,除专业医生短缺外,皮肤病学还面临误诊、漏诊、罕见病知识不足等问题,这些无疑都会对病人造成损失。

事实上,皮肤科是一门依靠形态特征的学科,大多数诊断都基于视觉识别模式。对皮肤科来说,AI 图像识别功能非常适合应用于辅助诊断。

但在过去几十年中,人工智能在皮肤学中的应用依然十分有限。直到近年来,随着人工智能技术的发展与应用落地,国内皮肤科在 AI 应用上也逐渐取得很多进步。

手持皮肤镜 + 手机 App 诊断皮肤病

比如 2018 年,湘雅大学第二医院与丁香园、大拿科技合作,实现了首个皮肤病的人工智能诊断的辅助系统,该系统目前主要针对红斑狼疮和皮炎等一系列疾病,识别准确性高达 85% 以上。之后,中日友好医院与北京协和医院也相继推出了基于深度学习技术的皮肤病 AI 诊断系统。

因此,我们有理由期待,AI 技术的辅助之下,皮肤科所面临的问题都将迎刃而解。

—— 完 ——