
摘要
预测人类行为是发展可靠智能代理(如自动驾驶汽车或机器人助手)所亟需解决的关键任务。尽管高精度的未来预测能力对于设计有效的预测方法至关重要,但推理速度同样不可忽视。若方法虽准确却速度不足,将导致决策过程产生显著延迟,从而增加系统响应时间,这对反应时间至关重要的应用场景(如自动驾驶)构成严重挑战。本文提出一种基于时间卷积的简单而高效的多模态架构。该方法通过堆叠多层时间卷积层构建层次化结构,摒弃循环神经网络(Recurrent Layers),以保障快速预测。此外,我们引入一种多模态融合机制,能够有效捕捉RGB图像、光流(flow)与目标(object)模态之间的两两交互关系。在两个大规模第一人称视角视频数据集EPIC-Kitchens-55和EPIC-Kitchens-100上的实验结果表明,所提方法在性能上可与当前最先进方法相媲美,同时显著提升了推理速度。