13 天前

你只需观看一次:一种用于实时时空动作定位的统一CNN架构

Okan Köpüklü, Xiangyu Wei, Gerhard Rigoll
你只需观看一次:一种用于实时时空动作定位的统一CNN架构
摘要

时空动作定位需要在所设计的网络架构中融合两种信息源:(1)来自前序帧的时间信息,以及(2)来自关键帧的空间信息。当前最先进的方法通常采用独立的网络分别提取这两类信息,并通过额外的融合机制实现检测结果的整合。在本工作中,我们提出YOWO,一种用于视频流中实时时空动作定位的统一卷积神经网络(CNN)架构。YOWO是一种单阶段架构,包含两个并行分支,能够同时提取时间与空间信息,并在一次前向推理中直接从视频片段预测出边界框和动作概率。由于整个架构高度统一,可实现端到端的联合优化。YOWO具有极高的运行效率:在输入16帧视频片段时达到34帧/秒的处理速度,在输入8帧片段时更高达62帧/秒,目前已成为时空动作定位任务中速度最快的先进架构。尤为突出的是,YOWO在J-HMDB-21和UCF101-24数据集上的表现显著优于此前的最先进方法,分别取得了约3%和12%的显著提升。此外,YOWO是首个且唯一一个在AVA数据集上实现具有竞争力性能的单阶段架构。我们已将代码及预训练模型公开发布,供学术界和工业界使用。

你只需观看一次:一种用于实时时空动作定位的统一CNN架构 | 最新论文 | HyperAI超神经