
摘要
本文研究了在新场景与未知视角的摄像头中预测人员未来轨迹的问题。我们采用一种无需真实数据的训练设置,即模型仅在三维仿真数据上进行训练,并可直接应用于多种真实摄像头场景,无需额外微调。为此,我们提出一种新颖的方法——SimAug,通过增强仿真训练数据来学习更具鲁棒性的特征表示,从而提升模型在未见真实测试数据上的泛化能力。其核心思想是将最难识别的摄像头视角特征与原始视角的对抗性特征进行混合。实验结果表明,SimAug在三个真实世界基准测试上实现了令人瞩目的性能,且在零真实训练数据条件下表现优异;在使用领域内训练数据时,其在Stanford Drone数据集以及VIRAT/ActEV数据集上均达到了当前最优水平。