16 天前
基于HeiChole基准的机器学习算法在手术流程与技能分析中的对比验证
Martin Wagner, Beat-Peter Müller-Stich, Anna Kisilenko, Duc Tran, Patrick Heger, Lars Mündermann, David M Lubotsky, Benjamin Müller, Tornike Davitashvili, Manuela Capek, Annika Reinke, Tong Yu, Armine Vardazaryan, Chinedu Innocent Nwoye, Nicolas Padoy, Xinyang Liu, Eung-Joo Lee, Constantin Disch, Hans Meine, Tong Xia, Fucang Jia, Satoshi Kondo, Wolfgang Reiter, Yueming Jin, Yonghao Long, Meirui Jiang, Qi Dou, Pheng Ann Heng, Isabell Twick, Kadir Kirtac, Enes Hosgor, Jon Lindström Bolmgren, Michael Stenzel, Björn von Siemens, Hannes G. Kenngott, Felix Nickel, Moritz von Frankenberg, Franziska Mathis-Ullrich, Lena Maier-Hein, Stefanie Speidel, Sebastian Bodenstedt

摘要
目的:手术流程与技能分析是下一代认知型手术辅助系统的关键技术。此类系统可通过情境感知的预警机制和半自主机器人辅助,提升手术安全性;或通过数据驱动的反馈机制,优化外科医生的培训。在单中心开放数据集上,已有研究报道手术阶段识别的平均精确度最高可达91%。本研究旨在探究手术阶段识别算法在多中心环境下的泛化能力,并扩展至更具挑战性的识别任务,如手术动作识别与手术技能评估。方法:为实现该目标,我们构建了一个包含来自三个外科中心共33例腹腔镜胆囊切除术视频的数据集,总手术时长为22小时。数据标注涵盖七个手术阶段(包含250次阶段转换)、四种手术动作的5514次出现、七类器械中21种器械的6980次出现,以及五个技能维度下的495次技能评分。该数据集被用于2019年内窥视觉挑战赛(Endoscopic Vision Challenge)中的“手术流程与技能分析”子挑战赛。共有12支团队提交了其基于机器学习的算法,用于阶段、动作、器械存在性及/或技能评估的识别任务。结果:在阶段识别任务中,F1分数介于23.9%至67.7%之间(n=9支团队);器械存在性检测的F1分数为38.5%至63.8%(n=8支团队);而动作识别的F1分数仅在21.8%至23.3%之间(n=5支团队)。在技能评估方面,平均绝对误差为0.78(n=1支团队)。结论:尽管手术流程与技能分析技术展现出支持手术团队的巨大潜力,但本研究通过多团队算法对比表明,该领域尚未完全解决。本研究提出的这一新型基准数据集,可为未来相关工作的可比性评估与验证提供有力支持。