11 天前

像素级识别用于整体手术场景理解

Nicolás Ayobi, Santiago Rodríguez, Alejandra Pérez, Isabela Hernández, Nicolás Aparicio, Eugénie Dessevres, Sebastián Peña, Jessica Santander, Juan Ignacio Caicedo, Nicolás Fernández, Pablo Arbeláez
像素级识别用于整体手术场景理解
摘要

本文提出了前列腺切除术全景多粒度手术场景理解数据集(GraSP),这是一个精心构建的基准,将手术场景理解建模为具有不同粒度层次的互补任务体系。我们的方法涵盖了长期任务(如手术阶段与步骤识别)和短期任务(如手术器械分割与原子视觉动作检测)。为充分挖掘该基准的潜力,我们提出了一种名为TAPIS(Transformers for Actions, Phases, Steps, and Instrument Segmentation)的通用模型架构,该架构结合全局视频特征提取器与基于器械分割模型生成的局部区域提议,以应对本基准所涵盖的多粒度挑战。通过在本数据集及其他替代基准上的大量实验,我们验证了TAPIS在各类任务中兼具卓越的泛化能力与领先性能。本研究为内窥视觉领域奠定了重要基础,为未来实现全景化手术场景理解提供了全新的研究框架。

像素级识别用于整体手术场景理解 | 最新论文 | HyperAI超神经