
摘要
本文旨在基于社交场景图像与历史轨迹,预测现实世界中运动目标未来的轨迹分布。然而,这一任务极具挑战性,原因在于真实轨迹分布既未知也不可观测,而模型训练仅能依赖该分布的一个样本进行监督,极易导致偏差。目前多数研究致力于预测多样化的轨迹以覆盖真实分布的所有模式,但往往忽视了预测的精确性,从而过度青睐不切实际的预测结果。为解决该问题,本文采用占用栅格图(occupancy grid maps)作为真实分布的显式且符合场景语义的近似,结合对称交叉熵损失函数来学习轨迹分布,从而有效惩罚低概率的预测。具体而言,我们提出了一种基于逆强化学习的多模态轨迹分布预测框架,该框架通过端到端的方式训练一个近似值迭代网络,实现轨迹规划。此外,基于所预测的分布,我们进一步设计了一种基于可微Transformer的网络,从中生成一组具有代表性的轨迹,其注意力机制有助于建模不同轨迹之间的相互关系。实验结果表明,所提方法在Stanford Drone Dataset与Intersection Drone Dataset上均取得了当前最优的性能表现。