摘要

我们提出了一种基于多关系图卷积网络（Multi-Relational Graph Convolutional Network, MRGCN）的新型框架，用于从移动单目相机捕获的时序有序图像帧序列中建模道路车辆的行为。该框架的输入是一个多关系图，图中的节点代表场景中的主动与被动代理（或物体），而连接任意两个节点的双向边则编码了它们之间的时空关系。我们证明，这种显式构建并利用中间时空交互图的方法，相较于直接在一组时序空间关系上端到端学习，更适用于本任务。此外，我们还提出了一种针对MRGCN的注意力机制，该机制能够根据场景动态地评估不同交互类型信息的重要性。所提出的框架在四个数据集上的车辆行为分类任务中，显著优于先前的方法。同时，该方法展现出无需微调即可在多个数据集间实现无缝迁移学习的能力。此类行为预测方法在多种导航任务中具有直接应用价值，例如行为规划、状态估计，以及基于视频的交通违规检测等场景。

源 PDF 查看代码