摘要

在所有现有的内镜视频手术流程分析框架中，动作三元组识别脱颖而出，成为唯一一个旨在提供真正细粒度和全面的手术活动信息的方法。这些信息以<器械，动词，目标>组合的形式呈现，准确识别极具挑战性。三元组的各个组成部分单独识别已属困难；在此任务中，不仅需要同时对三元组的所有三个组成部分进行识别，还需要正确建立它们之间的数据关联。为了完成这一任务，我们引入了一种新的模型——Rendezvous（RDV），该模型通过利用两个不同层次的注意力机制直接从手术视频中识别三元组。首先，我们引入了一种新的空间注意力形式来捕捉场景中的单个动作三元组组成部分，称为类别激活引导注意力机制（Class Activation Guided Attention Mechanism, CAGAM）。该技术利用器械产生的激活来集中识别动词和目标。为了解决关联问题，我们的RDV模型添加了一种受Transformer网络启发的新形式的语义注意力机制——多头混合注意力（Multi-Head of Mixed Attention, MHMA）。该技术通过多个交叉注意力和自注意力有效捕捉器械、动词和目标之间的关系。此外，我们还引入了CholecT50——一个包含50段内镜视频的数据集，每帧都标注了来自100个三元组类别的标签。我们提出的RDV模型在该数据集上显著提高了三元组预测的平均精度（mean AP）超过9%，相较于现有最先进方法表现出色。

源 PDF