
摘要
近年来,轨迹预测领域的大多数成功方法均基于LSTM模型,而几乎所有进展都源于对人与人之间社会交互关系以及人与场景之间交互关系的建模。本文对LSTM模型的适用性提出质疑,并提出一种新颖的方法:采用Transformer网络进行轨迹预测。这一方法实现了从LSTM所依赖的序列化、逐步处理机制,向完全基于注意力机制的记忆建模的根本性转变。具体而言,我们考察了原始的Transformer网络(TF)以及更大规模的双向Transformer(BERT),后者在自然语言处理任务中均处于最先进水平。我们提出的Transformer模型能够预测场景中个体的运动轨迹。这些模型具有“简洁性”特征:每个个体独立建模,无需引入复杂的个体间交互或人与场景交互项。特别地,该TF模型在不附加任何复杂设计(即“无花哨”)的情况下,取得了TrajNet这一规模最大、最具挑战性的轨迹预测基准上的最佳性能。此外,其扩展版本能够预测多个可能的未来轨迹,在ETH+UCY数据集的5个子集上,其表现与现有更复杂的工程化方法相当。最后,我们证明了Transformer模型具备处理观测缺失的能力,这在真实传感器数据中是常见情况。相关代码已开源,地址为:https://github.com/FGiuliari/Trajectory-Transformer。