2 个月前
面向整体的手术场景理解
Valderrama, Natalia ; Puentes, Paola Ruiz ; Hernández, Isabela ; Ayobi, Nicolás ; Verlyk, Mathilde ; Santander, Jessica ; Caicedo, Juan ; Fernández, Nicolás ; Arbeláez, Pablo

摘要
大多数用于研究外科手术干预的基准测试都集中在特定的挑战上,而不是充分利用不同任务之间的内在互补性。在本工作中,我们提出了一种面向整体的外科手术场景理解的新实验框架。首先,我们介绍了阶段、步骤、器械和原子视觉动作识别(PSI-AVA)数据集。PSI-AVA 包含了机器人辅助根治性前列腺切除术视频中长期(阶段和步骤识别)和短期推理(器械检测和新型原子动作识别)的注释。其次,我们提出了用于动作、阶段、器械和步骤识别的变压器模型(TAPIR),作为外科手术场景理解的强大基线方法。TAPIR 利用了我们数据集的多层次注释,并从器械检测任务中学到的表示中受益,从而提高了其分类能力。我们在 PSI-AVA 数据集和其他公开可用数据库中的实验结果表明,我们的框架适合推动未来关于整体外科手术场景理解的研究。