
摘要
手术工具定位是内窥镜视频自动分析中的一个重要任务。在现有文献中,用于工具定位、跟踪和分割的方法需要完全标注的训练数据,这限制了可使用的数据集规模以及方法的泛化能力。在本研究中,我们提出了一种利用弱监督来克服缺乏标注数据的方法。我们设计了一种仅基于图像级标注进行训练的深度架构,该架构可用于手术视频中的工具存在检测和定位。我们的架构依赖于一个端到端训练的全卷积神经网络,使得我们能够在没有显式空间标注的情况下实现手术工具的定位。我们在一个大型公开数据集 Cholec80 上验证了该方法的优势,该数据集完全标注了二值工具存在信息,并且其中5个视频已完全标注了边界框和工具中心,用于评估。