2 个月前

异步时域场用于动作识别

Gunnar A. Sigurdsson; Santosh Divvala; Ali Farhadi; Abhinav Gupta

摘要

动作不仅仅是运动和轨迹：我们做饭是为了吃，我们拿杯子是为了喝水。对视频的全面理解需要超越外观建模，还需要对活动序列以及更高层次的结构如意图进行推理。但是，我们如何对这些方面进行建模和推理呢？我们提出了一种全连接的时间条件随机场（CRF）模型，该模型可以对包括物体、动作和意图在内的各种活动方面进行推理，其中势函数由深度网络预测。端到端训练这种结构化模型是一项具有挑战性的任务：为了进行推理和学习，我们需要构建包含整段视频的小批量数据集，这导致每个小批量中只有少数几段视频。数据点之间的高相关性会导致反向传播算法失效。为了解决这一挑战，我们提出了一种异步变分推断方法，该方法允许高效的端到端训练。我们的方法在Charades基准测试中实现了22.4%的分类平均精度（mAP），超过了当前最先进的方法（17.2% mAP），并且在时间定位任务上也取得了同等的改进效果。