
摘要
在视觉目标跟踪中,估计目标范围是一个基本挑战。通常,跟踪器以框为中心,完全依赖边界框来定义场景中的目标。然而,在实际应用中,物体往往具有复杂的形状,并且不与图像轴对齐。在这种情况下,边界框无法提供目标的精确描述,并且经常包含大量的背景像素。我们提出了一种以分割为中心的跟踪流程,该流程不仅生成高精度的分割掩码,而且在内部使用分割掩码而不是边界框进行工作。因此,我们的跟踪器能够更好地学习一种目标表示方法,从而在场景中清晰地区分目标与背景内容。为了在具有挑战性的跟踪场景中实现必要的鲁棒性,我们提出了一种独立的实例定位组件,在生成输出掩码时用于调节分割解码器。我们从分割掩码推断出边界框,并在具有挑战性的跟踪数据集上验证了我们的跟踪器,在LaSOT数据集上取得了69.7%的成功AUC分数,达到了新的最先进水平。由于大多数跟踪数据集不包含掩码注释,我们无法使用它们来评估预测的分割掩码。相反,我们在两个流行的视频对象分割数据集上验证了我们的分割质量。