
摘要
手术三元组识别是实现下一代情境感知手术室的关键构建模块。其目标是在手术视频帧中识别出器械、动词和目标的组合。在本文中,我们提出了一种新的生成框架——DiffTriplet,该框架利用扩散模型通过迭代去噪来预测手术三元组。为了应对三元组关联的挑战,我们在扩散框架中提出了两种独特的设计,即关联学习和关联引导。在训练过程中,我们优化了三元组及其各个组件的联合空间模型,以捕捉它们之间的依赖关系。在推理阶段,我们将关联约束整合到迭代去噪过程的每次更新中,利用各个组件的信息来细化三元组预测。在CholecT45和CholecT50数据集上的实验表明,所提出的方法在手术三元组识别方面取得了新的最先进性能。我们的代码将对外发布。