17 天前
时间约束神经网络(TCNN):一种用于半监督视频语义分割的框架
Deepak Alapatt, Pietro Mascagni, Armine Vardazaryan, Alain Garcia, Nariaki Okamoto, Didier Mutter, Jacques Marescaux, Guido Costamagna, Bernard Dallemagne, Nicolas Padoy

摘要
构建高效语义分割模型,尤其是视频语义分割模型,面临的一个主要障碍是缺乏大规模且标注精良的数据集。这一瓶颈在医学与外科等高度专业化且受严格监管的领域尤为突出,尽管在这些领域中,视频语义分割具有重要的应用潜力,但高质量的视频数据和专家标注资源却极为稀缺。在此类场景中,训练过程中可充分利用时间上下文信息与解剖学约束来提升模型性能。本文提出了一种名为时序约束神经网络(Temporal Constrained Neural Networks, TCNN)的半监督框架,用于外科手术视频的语义分割。我们证明,自编码器网络能够高效地提供空间与时间双重监督信号,用于训练深度学习模型。我们在一个新发布的腹腔镜胆囊切除术视频数据集——Endoscapes,以及一个公开的白内障手术数据集CaDIS的改编版本上验证了该方法的有效性。实验结果表明,通过利用预测掩码的低维表示,可在不增加推理阶段计算开销的前提下,显著提升在稀疏标注数据集上的分割性能。此外,TCNN框架具有模型无关性,可与多种模型架构设计无缝结合,仅引入极小的额外复杂度。