8 个月前

计算机视觉

多任务学习

计算机视觉

Daochang Liu Axel Hu Mubarak Shah Chang Xu

摘要

手术三元组识别是实现下一代情境感知手术室的关键构建模块。其目标是在手术视频帧中识别出器械、动词和目标的组合。在本文中，我们提出了一种新的生成框架——DiffTriplet，该框架利用扩散模型通过迭代去噪来预测手术三元组。为了应对三元组关联的挑战，我们在扩散框架中提出了两种独特的设计，即关联学习和关联引导。在训练过程中，我们优化了三元组及其各个组件的联合空间模型，以捕捉它们之间的依赖关系。在推理阶段，我们将关联约束整合到迭代去噪过程的每次更新中，利用各个组件的信息来细化三元组预测。在CholecT45和CholecT50数据集上的实验表明，所提出的方法在手术三元组识别方面取得了新的最先进性能。我们的代码将对外发布。

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供

8 个月前

计算机视觉

多任务学习

计算机视觉

Daochang Liu Axel Hu Mubarak Shah Chang Xu

摘要

手术三元组识别是实现下一代情境感知手术室的关键构建模块。其目标是在手术视频帧中识别出器械、动词和目标的组合。在本文中，我们提出了一种新的生成框架——DiffTriplet，该框架利用扩散模型通过迭代去噪来预测手术三元组。为了应对三元组关联的挑战，我们在扩散框架中提出了两种独特的设计，即关联学习和关联引导。在训练过程中，我们优化了三元组及其各个组件的联合空间模型，以捕捉它们之间的依赖关系。在推理阶段，我们将关联约束整合到迭代去噪过程的每次更新中，利用各个组件的信息来细化三元组预测。在CholecT45和CholecT50数据集上的实验表明，所提出的方法在手术三元组识别方面取得了新的最先进性能。我们的代码将对外发布。

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供