
摘要
由于神经网络对数据量需求较大,训练过程中引入数据增强已成为一种广泛应用的技术,能够有效扩充数据集并提升模型的泛化能力。另一方面,对多个增强样本的预测结果进行聚合(即测试时增强,test-time augmentation)可进一步提升模型性能。在行人重识别(person re-identification)任务中,通常的做法是同时提取原始图像及其水平翻转版本的特征向量,并将最终表示取为两者特征向量的均值。然而,这种策略在训练与推理阶段之间引入了不一致性:推理阶段计算的均值特征向量并未出现在训练流程中。针对这一问题,本文提出了一种名为 FlipReID 的新结构,并引入翻转损失(flipping loss)进行优化。具体而言,采用 FlipReID 结构的模型在原始图像与翻转图像上同时进行训练,通过引入翻转损失,最小化对应图像对特征向量之间的均方误差。大量实验结果表明,所提方法在多个基准上均带来了稳定且显著的性能提升。特别地,我们在目前规模最大的行人重识别数据集 MSMT17 上取得了新的纪录。相关源代码已开源,地址为:https://github.com/nixingyang/FlipReID。