11 天前
ORacle:面向知识引导的全貌OR领域建模的大型视觉-语言模型
Ege Özsoy, Chantal Pellegrini, Matthias Keicher, Nassir Navab

摘要
每天,全球范围内有成千上万的手术在不同环境中进行,每个手术室(Operating Room, OR)的配置、人员组成、工具与设备均存在显著差异。这种固有的多样性给全面理解手术室环境带来了重大挑战,因为相关模型必须能够超越其初始训练数据集的范围,实现良好的泛化能力。为缩小这一差距,我们提出了ORacle——一种面向手术室领域全面建模的先进视觉-语言模型。该模型具备多视角感知与时间序列建模能力,并可在推理阶段引入外部知识,从而有效适应此前未见过的手术场景。这一能力进一步通过我们提出的新型数据增强框架得到强化,该框架显著提升了训练数据的多样性,确保ORacle能够高效利用所提供的知识。在4D-OR数据集上的严格测试中,ORacle不仅在场景图生成及下游任务中展现出当前最优的性能表现,且所需训练数据量显著少于现有模型。此外,其出色的适应性体现在能够准确理解未见过的视角、器械与设备的动作行为及外观特征。这些结果表明,ORacle具有显著提升手术室领域建模可扩展性与经济性的潜力,为手术数据科学的未来发展开辟了新路径。本文接受后,我们将公开代码与数据集。