据世界卫生组织统计,2020 年全球新发乳腺癌病例 230 万例,在所有癌症中居首位,超越肺癌成为第一大癌。
然而,如果能够早期发现并加以及时治疗,在肿瘤转移之前杀死癌细胞,乳腺癌的致死率就可以大大降低。目前乳腺癌初筛的常用手段是乳腺 X 光,随后医生通过分析复核 X 光片对乳腺健康情况进行判断。但复核过程会消耗大量时间,影响其他患者的就诊。
为此,英国诺丁汉大学的研究者对比了商用 AI 与医生阅读乳腺 X 光片的能力,为 AI 在临床医疗的应用提供了新思路。
作者 | 雪菜
编辑 | 三羊、铁塔
本文首发于 HyperAI 超神经微信公众平台~
据美国癌症协会统计,2022 年美国女性新发癌症病例数约 93 万例,其中新增乳腺癌患者约 29 万人,占比 31% 。同时,癌症死亡病例中乳腺癌患者占比 15%,仅次于肺癌。
图 1:美国 2022 年新发癌症病例数(上)及癌症死亡数(下)
在中国,乳腺癌是 21 世纪女性患者中占比最高的癌症,且每年新增患者数量在不断增加。
图 2:2000-2016 年我国女性新增癌症病例数,灰色为乳腺癌病例数
乳腺癌是异常乳腺细胞生长失控并形成肿瘤引起的疾病。如果不及时干涉,肿瘤会转移扩散,最终危及性命。但如果能在癌症初期发现局部肿瘤,并开始治疗,癌症的五年存活率可达 99% 。
目前,医院一般通过乳腺 X 光进行乳腺癌初筛。然而,在初筛过程中可能会出现假阳性,使得没有癌症的患者进行不必要的检测。还会出现遗漏,延误患者最佳治疗时间。
因此,许多欧洲国家会对乳腺 X 光片进行复查,尽可能排除掉假阳性的病例。这一方法行之有效,在降低假阳性的同时,还将癌症的检测率提高了 6%-15% 。
但是,对 X 光片进行阅读评估需要耗费相当的时间。在医患比偏低的地区,X 光片的复查不仅占用了医生的时间,而且会影响到其他患者的早期筛查。
AI 的应用部分缓解了医生的工作压力,然而将生命健康交给 AI 去评价似乎有些不太稳妥。对此,英国诺丁汉大学的 Yan Chen 教授表示,「将 AI 应用于临床医疗面临着很大的压力,但我们需要将这件事做好,以保护女性的健康」。
为此,Yan Chen 团队对比了商用 AI Lunit 与医生阅读乳腺 X 光片的准确率。结果显示,Lunit 分析乳腺 X 光片的能力与人类医师相当。这一成果已发表于「Radiology」。
论文链接:
https://pubs.rsna.org/doi/10.1148/radiol.223299#_i13
本研究选用两组 PERFORMS 数据集作为模型的测试集。每组 PERFORMS 数据集由 60 张具有挑战性的 X 光片组成,包括恶性肿瘤 (约占 35%) 、良性肿瘤和正常结果。过去 30 年间,PERFORMS 数据集用于英国国家卫生服务乳腺筛查计划 (NHSBSP) 医生的入门测试和常规考核。
在对 X 光片进行分析时,医生会在可疑的位置做出标注,最后做出 1-5 的评级,对应正常、良性、不确定、可疑及恶性。
AI 会对 X 光片的各个特征的可疑程度进行 1-100 的评分,最高分视为对整个 X 光片的评分。如果没有可疑特征,则视为 0 分。
图 3:医生与 AI 对乳腺 X 光片的分析结果
A:蓝色箭头为直径 8 mm 的不明肿块,后鉴定为组织学 2 级导管癌;
B:红色十字是 AI 发现的异常特征,蓝点是医生在分析时标注出的可疑区域。
共有 552 名医生参与了这场比赛,占 NHSBSP 总人数的 68%,其中有 315 名放射科医生、 206 名放射技师和 31 名临床医生。
在对两组 PERFORMS 数据集进行分析后,他们认为 161 个乳腺 X 光片结果是正常的,70 个乳腺中有恶性肿瘤,还有 9 个为良性肿瘤。恶性肿瘤的常见特征包括肿块 (64.3%) 、钙化 (12.9%) 、不对称 (11.4%) 和结构扭曲 (11.4%),平均病变大小为 15.5 ± 9.2 mm 。
表 1:PERFORMS 数据集结果
人类组的平均 AUC 为 0.88 。 AI 组的 AUC 为 0.93,对应人类组 96.8 百分位数,但两组的 AUC 没有明显差异。
图 4:医生组 AUC 直方图与 AI 的 AUC(黄线)
人类组的平均灵敏度和特异性分别为 90% 和 76% 。在开发者推荐的阈值下,AI 的敏感性和特异性分别为 84% 和 89% 。
表 2:医生组与不同阈值 AI 的判断结果
TP:真阳性;
FP:假阳性;
TN:真阴性;
FN:假阴性;
灵敏度 = TP / 总阳性数;
特异性 = TN / 总阴性数。
在 AI 的 ROC 曲线中,52% 的医生表现在曲线之上,36% 在曲线下方,12% 的表现与 ROC 曲线一致。
图 5:AI 的 ROC 曲线,其中蓝点是不同医生的表现
当 AI 的阈值为 3.06 时,AI 的灵敏度与医生一致,检测出了 63 例恶性肿瘤,仅遗漏了 7 例。此时 AI 的特异性与医生没有显著差异。
当阈值设置为 2.91 时,AI 与医生组的特异性一致,灵敏度为 91% 。上述结果显示,Lunit 的 AI 分析乳腺 X 光片的灵敏度和特异性与人类医生相当。
图 6:不同阈值对 AI 判断结果的影响
A:蓝色箭头为不对称区域,后鉴定为组织学 2 级导管癌;
B:AI 阈值为 2.91 时的检测结果,红色十字最终鉴定为真阳性;
C:AI 阈值为 3.06 时的检测结果,没有发现明显异常特征。
Yan Chen 教授表示,「这一研究的结果为 AI 筛查提供了有力证据,说明 AI 对乳腺 X 光片的分析水平与人类医生相当」。
2021 年 2 月 4 日世界癌症日上,世界卫生组织 (WHO) 属下的国际癌症研究所称,上一年新增 230 万例乳腺癌病例,占比 11.7%,首次超过了肺癌新增病例数,俨然成为「隐匿的粉红杀手」。
同时,乳腺癌发病率最高的群体是高收入国家的妇女,中低收入国家的女性发病率明显更低。而且,还有约 0.5-1% 的乳腺癌来自于男性。
不过,乳腺癌本身的致死率并不高。 2016-2020 年诊断出乳腺癌并存活的女性达 800 万人,高于其他癌症。
目前 WHO 正在全世界推广全球乳腺癌行动,希望通过早发现、及时诊断和全面的乳腺癌管理来降低全球因乳腺癌死亡的人数。
图 7:AI 辅助的乳腺癌筛查
作为乳腺癌初筛的有力工具,AI 能够及时发现乳腺癌早期的特征,有望将「粉红杀手」扼杀于预备阶段。但现在大规模在临床中推广 AI 可能为时过早,因为环境和算法本身的变化会不断影响,导致 AI 的灵敏度和特异性随时间而下降。
Yan Chen 教授也认为,「一旦 AI 进入临床应用,我们就必须有一个机制对其进行持续的评价和监测」。现在,世界各国的研究团队正在对 AI 的检测结果进行评价,已经取得了令人满意的结果。未来在高效的 AI 和完善的监管机制的帮助下,各类疾病将「无处可藏」,我们的健康将得到更稳定的保障。
参考链接:
[1]https://acsjournals.onlinelibrary.wiley.com/doi/10.3322/caac.21708
[2]https://www.sciencedirect.com/science/article/pii/S2667005422000047
本文首发于 HyperAI 超神经微信公众平台~