
摘要
作为一种可以在远距离识别的独特生物特征,步态在犯罪预防、司法鉴定和社会安全等领域具有广泛的应用。现有的步态识别方法通常采用步态模板或步态序列来描述步态,其中步态模板难以保留时间信息,而步态序列则必须保持不必要的顺序约束,从而丧失了步态识别的灵活性。本文提出了一种新的视角,将步态视为由独立帧组成的集合。我们设计了一个名为GaitSet的新网络,用于从该集合中学习身份信息。基于这种集合视角,我们的方法对帧的排列顺序具有鲁棒性,并且可以自然地整合来自不同视频的帧,这些视频可能是在不同的场景下拍摄的,例如多样的视角、不同的着装/携带条件。实验表明,在正常行走条件下,我们的单模型方法在CASIA-B步态数据集上达到了95.0%的平均第一排名准确率,在OU-MVLP步态数据集上达到了87.1%的准确率。这些结果代表了最新的识别精度水平。在各种复杂的场景下,我们的模型表现出显著的鲁棒性。例如,在携带包和穿着外套行走的情况下,它在CASIA-B数据集上的准确率分别为87.2%和70.4%,大幅超过了现有最佳方法的表现。此外,即使测试样本中的帧数较少(如仅7帧),所提出的方法也能达到令人满意的准确率(例如,在CASIA-B数据集上为82.5%)。源代码已发布在https://github.com/AbnerHqC/GaitSet。