摘要
在微创手术中,对医用器械实现精确的6自由度(6-DoF)位姿估计,可显著提升治疗策略并改善最终手术效果。现有的深度学习方法虽已取得较高精度,但通常需针对每个目标物体定制特定方案,且依赖繁琐的设置与训练环境,往往需要大量仿真数据支持,同时难以实现实时计算。为此,本文提出一种适用于X射线系统的通用数据采集方法,设计了一种新颖且通用的YOLOv5-6D位姿估计架构,用于实现高精度、高速度的物体位姿估计,并构建了一套完整的单视角锥束X射线图像下手术螺钉位姿估计方法,充分考虑了成像几何特性。所提出的YOLOv5-6D位姿模型在公开基准数据集上表现优异,且在GPU上达到42 FPS的推理速度,显著提升了计算效率。此外,该方法在不同X射线成像几何配置及语义图像复杂度下均展现出良好的泛化能力,适用于多种应用场景。最后,该方法在脊柱手术中用于骨-螺钉位姿估计,以支持计算机辅助导航,实验结果表明,基于0.1∙d ADD-S指标,模型达到了92.41%的精度,验证了其在提升手术精度与患者预后方面的巨大潜力。YOLOv5-6D代码已开源,地址为:https://github.com/cviviers/YOLOv5-6D-Pose。