11 天前

听我说：用于音频增强时序动作定位的融合方法

Anurag Bagchi, Jazib Mahmood, Dolton Fernandes, Ravi Kiran Sarvadevabhatla

摘要

目前最先进的未剪辑视频时序动作定位（Temporal Action Localization, TAL）架构仅考虑了RGB与光流（Flow）模态，完全忽略了信息丰富的音频模态。尽管音频融合已在相关但相对更简单的剪辑级（clip-level）动作识别任务中得到探索，但TAL面临独特的挑战。本文提出了一种简单而有效的基于融合的TAL方法。据我们所知，本工作是首个在监督式TAL任务中联合考虑音频与视频模态的研究。实验结果表明，我们的方法能够持续提升当前最先进的纯视频TAL方法的性能。具体而言，该方法在大规模基准数据集上实现了新的最优性能：在ActivityNet-1.3数据集上达到54.34 [email protected]，在THUMOS14数据集上达到57.18 [email protected]。我们的实验涵盖了多种融合策略、模态组合以及TAL架构的消融研究。相关代码、模型及数据已公开，详见：https://github.com/skelemoa/tal-hmo。