
摘要
动作不仅仅是运动和轨迹:我们做饭是为了吃,我们拿杯子是为了喝水。对视频的全面理解需要超越外观建模,还需要对活动序列以及更高层次的结构如意图进行推理。但是,我们如何对这些方面进行建模和推理呢?我们提出了一种全连接的时间条件随机场(CRF)模型,该模型可以对包括物体、动作和意图在内的各种活动方面进行推理,其中势函数由深度网络预测。端到端训练这种结构化模型是一项具有挑战性的任务:为了进行推理和学习,我们需要构建包含整段视频的小批量数据集,这导致每个小批量中只有少数几段视频。数据点之间的高相关性会导致反向传播算法失效。为了解决这一挑战,我们提出了一种异步变分推断方法,该方法允许高效的端到端训练。我们的方法在Charades基准测试中实现了22.4%的分类平均精度(mAP),超过了当前最先进的方法(17.2% mAP),并且在时间定位任务上也取得了同等的改进效果。