HyperAIHyperAI

Command Palette

Search for a command to run...

基于扩散模型的手术三元组识别

Daochang Liu Axel Hu Mubarak Shah Chang Xu

摘要

手术三元组识别是实现下一代情境感知手术室的关键构建模块。其目标是在手术视频帧中识别出器械、动词和目标的组合。在本文中,我们提出了一种新的生成框架——DiffTriplet,该框架利用扩散模型通过迭代去噪来预测手术三元组。为了应对三元组关联的挑战,我们在扩散框架中提出了两种独特的设计,即关联学习和关联引导。在训练过程中,我们优化了三元组及其各个组件的联合空间模型,以捕捉它们之间的依赖关系。在推理阶段,我们将关联约束整合到迭代去噪过程的每次更新中,利用各个组件的信息来细化三元组预测。在CholecT45和CholecT50数据集上的实验表明,所提出的方法在手术三元组识别方面取得了新的最先进性能。我们的代码将对外发布。


用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码
开箱即用的 GPU
最优定价

HyperAI Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供