
摘要
准确预测多个智能体的未来轨迹对于自主系统至关重要,但由于智能体之间复杂的交互关系以及每个智能体未来行为的不确定性,这一任务极具挑战性。多智能体轨迹预测需要建模两个关键维度:(1)时间维度,即建模过去智能体状态对未来状态的影响;(2)社会维度,即建模每个智能体的状态如何影响其他智能体。以往大多数方法将这两个维度分别建模,例如,先使用时间模型独立地对每个智能体在时间维度上的特征进行汇总,再通过社会模型建模这些汇总特征之间的交互。然而,这种分步处理方式存在局限性,因为在时间或社会维度上独立进行特征编码可能导致信息丢失。我们更希望采用一种能够使某一时刻某智能体的状态直接作用于另一智能体未来状态的建模方法。为此,本文提出一种新型Transformer架构——AgentFormer,该模型能够联合建模时间维度与社会维度。AgentFormer通过将多智能体轨迹特征在时间和智能体维度上展开,形成序列化表示。由于标准注意力机制在计算过程中不考虑序列中各元素的智能体身份,AgentFormer引入了一种新颖的“智能体感知注意力”机制,该机制通过差异化地关注同一智能体与其他智能体的特征元素,从而有效保留智能体的身份信息。基于AgentFormer,我们进一步提出一种随机性多智能体轨迹预测模型,该模型在推断某一智能体未来位置时,能够灵活地关注任意先前时刻任意智能体的特征。此外,所有智能体的潜在意图也被联合建模,使得某一智能体行为的随机性可影响其他智能体的预测结果。在多个广泛使用的行人轨迹与自动驾驶数据集上的实验表明,本方法显著超越现有最先进水平,大幅提升了多智能体轨迹预测的准确性。