SAMURAI:基于运动感知记忆的零样本视觉跟踪模型适应性研究

段落分割模型2(Segment Anything Model 2,简称SAM 2)在对象分割任务中表现出色,但在视觉对象跟踪方面面临挑战,尤其是在处理快速移动或自遮挡对象的拥挤场景时。此外,原始模型中的固定窗口记忆方法没有考虑用于条件化下一帧图像特征的记忆质量,导致视频中的错误传播。本文介绍了一种增强版的SAM 2——SAMURAI,该模型专门针对视觉对象跟踪进行了改进。通过结合时间运动线索和提出的运动感知记忆选择机制,SAMURAI 能够有效预测对象运动并优化掩码选择,从而实现稳健且精确的跟踪,而无需重新训练或微调。SAMURAI 可以实时运行,并在多个基准数据集上展示了强大的零样本性能,证明了其在无需微调的情况下具有良好的泛化能力。评估结果显示,与现有的跟踪器相比,SAMURAI 在成功率和精度方面取得了显著提升,在LaSOT_{ext} 数据集上的AUC 增益为7.1%,在GOT-10k 数据集上的AO 增益为3.5%。此外,在LaSOT 数据集上,它还取得了与完全监督方法相当的结果,突显了其在复杂跟踪场景中的鲁棒性和在动态环境中实际应用的潜力。代码和结果可在 https://github.com/yangchris11/samurai 获取。注释:- AUC:Area Under the Curve(曲线下的面积)- AO:Average Overlap(平均重叠率)- LaSOT_{ext}:Large-scale Single Object Tracking dataset extended version(大规模单目标跟踪数据集扩展版本)- GOT-10k:Generic Object Tracking Using 10,000 Videos(使用10,000个视频进行通用目标跟踪)