2 个月前
LoViT:用于手术阶段识别的长视频变换器
Yang Liu; Maxence Boels; Luis C. Garcia-Peraza-Herrera; Tom Vercauteren; Prokar Dasgupta; Alejandro Granados; Sebastien Ourselin

摘要
在线手术阶段识别在构建能够量化表现并监督手术流程执行的情境工具方面发挥着重要作用。目前的方法存在局限性,因为它们使用帧级监督训练空间特征提取器,这可能导致由于不同阶段出现相似帧而产生错误预测,并且由于计算限制而难以有效融合局部和全局特征,从而影响对手术干预中常见的长视频进行分析。本文提出了一种两阶段方法,称为长视频变换器(Long Video Transformer, LoViT),用于融合短期和长期时间信息。该方法结合了一个时间丰富的空间特征提取器和一个多尺度时间聚合器,后者由两个基于自注意力机制的级联L-Trans模块组成,随后是一个基于ProbSparse自注意力机制的G-Informer模块,用于处理全局时间信息。多尺度时间头部则结合局部和全局特征,并使用相位转换感知监督对手术阶段进行分类。我们的方法在Cholec80和AutoLaparo数据集上始终优于现有最先进方法。与Trans-SVNet相比,LoViT在Cholec80数据集上的视频级别准确率提高了2.4个百分点,在AutoLaparo数据集上提高了3.1个百分点。此外,它在AutoLaparo数据集上的相位级别Jaccard指数提高了5.3个百分点,在Cholec80数据集上提高了1.55个百分点。我们的结果表明,该方法在两种具有不同手术程序和时间序列特性的数据集中实现了最先进的手术阶段识别性能,并引入了应对长视频的机制。