7 天前

MM-OR:面向高强度手术环境语义理解的大规模多模态手术室数据集

&#xd6, zsoy, Ege, Pellegrini, Chantal, Czempiel, Tobias, Tristram, Felix, Yuan, Kun, Bani-Harouni, David, Eck, Ulrich, Busam, Benjamin, Keicher, Matthias, Navab, Nassir
MM-OR:面向高强度手术环境语义理解的大规模多模态手术室数据集
摘要

手术室(Operating Rooms, ORs)是高度复杂、高风险的环境,需要精确理解医疗人员、器械与设备之间的交互关系,以提升手术辅助能力、情境感知水平以及患者安全。当前的公开数据集在规模、真实性和多模态特性方面均存在明显不足,难以全面反映手术室场景的复杂性,从而制约了手术室建模技术的发展。为此,我们提出了MM-OR——首个真实且大规模的多模态时空手术室数据集,也是首个支持多模态场景图生成的数据集。MM-OR全面捕捉了手术室场景,包含RGB-D图像、细节视图、音频、语音转录文本、机器人日志及追踪数据,并配有全景分割标注、语义场景图以及下游任务标签。此外,我们提出了MM2SG,这是首个用于场景图生成的多模态大规模视觉-语言模型。通过大量实验,我们验证了该模型能够有效融合多模态输入信息。MM-OR与MM2SG共同构建了手术室整体理解的新基准,为复杂高风险环境中多模态场景分析的研究开辟了新路径。相关代码与数据已开源,访问地址为:https://github.com/egeozsoy/MM-OR。

MM-OR:面向高强度手术环境语义理解的大规模多模态手术室数据集 | 最新论文 | HyperAI超神经