17 天前

用于动作识别的SMART帧选择

Shreyank N Gowda, Marcus Rohrbach, Laura Sevilla-Lara
用于动作识别的SMART帧选择
摘要

动作识别具有较高的计算开销。本文针对帧选择问题展开研究,旨在提升动作识别的准确性。特别地,我们证明了在剪辑视频(trimmed videos)场景下,选择高质量的帧同样能够显著提升动作识别性能。尽管近期研究已成功将帧选择技术应用于长时、未剪辑视频(untrimmed videos),这类视频中存在大量无关内容,易于剔除,但本文聚焦于更为常见的短时、剪辑动作识别任务。我们认为,有效的帧选择不仅能够降低动作识别的计算成本,还能通过剔除难以分类的低质量帧来提升识别精度。与以往工作通常逐帧进行选择不同,本文提出一种新的联合帧选择方法,即同时考虑视频中所有帧的全局信息,从而实现更高效的帧筛选。该方法使优质帧在视频中更合理地分布,如同一组能够讲述完整故事的快照。我们称该方法为SMART(Selective Multi-frame Attention for Recognition Tasks)。我们在多种主干网络架构下,并在多个基准数据集(Kinetics、Something-Something、UCF101)上对SMART进行了验证。实验结果表明,相较于其他帧选择策略,SMART在保持或提升识别准确率的同时,将计算成本降低了4至10倍。此外,当以识别性能为主要目标时,我们的帧选择策略在多个主流基准数据集(UCF101、HMDB51、FCVID、ActivityNet)上均超越了近期最先进的模型与帧选择方法,展现出显著的性能优势。