6 个月前

摘要

手术操作在高度复杂的手术室（Operating Room, OR）环境中进行，涉及多种参与者、设备以及复杂的交互关系。迄今为止，仅有接受过医学训练的人类专家才能全面理解这一高度动态环境中的各类关联与互动。本文旨在推动社区向实现手术室领域自动化、整体化及语义化理解与建模的目标更进一步。为此，我们首次提出采用语义场景图（Semantic Scene Graph, SSG）来描述与概括手术场景。在该场景图中，节点代表手术室内不同实体，如医护人员、患者及医疗设备；边则表示这些实体之间的语义关系。为验证所提表示方法的可行性，我们构建了首个公开可用的4D手术场景图数据集——4D-OR，该数据集包含在真实手术室模拟中心中，通过六台RGB-D传感器记录的十例模拟全膝关节置换手术。4D-OR数据集共包含6734帧，经过丰富标注，涵盖语义场景图、人体姿态、物体位姿以及临床角色信息。本文进一步提出一种基于端到端神经网络的SSG生成流程，其宏平均F1得分为0.75，证明了该方法具备在手术室环境中进行语义推理的能力。此外，我们通过临床角色预测任务进一步验证了场景图的表示能力，取得了0.85的宏平均F1分数。相关代码与数据集将在论文被接收后公开发布。

源 PDF