11 天前
SF-TMN:用于外科手术阶段识别的SlowFast时序建模网络
Bokai Zhang, Mohammad Hasan Sarhan, Bharti Goel, Svetlana Petculescu, Amer Ghanem

摘要
自动手术阶段识别是支持基于视频评估(Video-Based Assessment, VBA)系统进行外科教学的关键技术之一。利用时间信息对于手术阶段识别至关重要,因此近年来的多种方法均通过提取帧级特征,实现对完整视频的时序建模。为提升时序建模能力,本文提出一种名为慢速-快速时序建模网络(SlowFast Temporal Modeling Network, SF-TMN)的新型架构,该网络不仅能够实现帧级的全视频时序建模,还可实现片段级的全视频时序建模。我们采用在目标数据集上预训练的特征提取网络,从视频帧中提取特征,作为SF-TMN的训练数据。SF-TMN中的“慢路径”(Slow Path)利用所有帧级特征进行帧级时序建模;“快路径”(Fast Path)则基于帧级特征聚合得到的片段级特征,进行片段级时序建模。所提出的框架在时序建模网络的选择上具有高度灵活性,本文探索了MS-TCN与ASFormer两种时序建模网络,并尝试了多种慢路径与快路径的组合策略。在Cholec80手术阶段识别任务上的实验表明,SF-TMN在所有评估指标上均达到了当前最优性能。其中,以ASFormer为骨干网络的SF-TMN在准确率上较当前最优的非端到端(Not End-to-End, TCN)方法提升2.6%,在Jaccard相似度上提升7.4%。此外,我们在50Salads、GTEA和Breakfast等多个动作分割数据集上也进行了评估,结果同样达到了当前最优水平。实验结果表明,通过引入时序精炼阶段,对帧级与片段级时间信息进行联合建模与优化,显著提升了手术阶段时序建模的性能,验证了多粒度时间信息融合的有效性。